logo
logo

热门博客

DeepFlow 全栈可观测平台赋能企业 OA 系统服务质量提升
本文深入探讨了 DeepFlow全栈可观测性平台在企业核心OA系统中的实战应用。针对某大型客户OA系统长期存在的响应迟缓、偶发故障等顽疾,DeepFlow 通过零侵扰数据采集技术,构建了从网关到应用、数据库的全景拓扑与实时告警体系。在一次典型的工单审批功能卡顿事件中,运维团队利用“全景拓扑——>应用调用回溯——>代码剖析——>大模型诊断”的闭环能力,在 3 分钟内精准锁定了Java程序GC异常的根因。该实践不仅大幅提升了IT运维效率,更有效保障了关键用户的办公体验,为企业数字化转型的服务质量优化提供了专业技术标杆。
DeepFlow 携手保险巨头亮相 SIGCOMM,展示 AI 可观测性赋能金融系统
在美国计算机协会(ACM)旗舰会议 SIGCOMM 2025 的首届 Next-Generation Network Observability (NGNO) Workshop 上,云杉网络与中国某头部保险集团展示“基于 DeepFlow 智能体的IT健康评估和故障诊断平台”,成为全球产学研关注的焦点。
首个 eBPF MCP Server!DeepFlow 推动应用性能管理全周期智能化
今日,DeepFlow 社区版 MCP Server 正式发布,这也是业界首个 eBPF MCP Server。本文将会介绍 DeepFlow MCP Server 在应用性能管理中的使用场景,覆盖开发测试、业务巡检、故障诊断、成本优化全生命周期。未来已来,DeepFlow MCP Server 即将开启应用性能管理的智能化新时代!
DeepFlow 在腾讯 TKE 内部平台的可观测性实践
随着云原生技术的快速发展,越来越多的业务采用微服务架构,并将服务迁移至 Kubernetes(K8s)环境。微服务化虽然提升了单个服务的可维护性和业务开发效率,却同时增加了服务之间的依赖复杂度。一旦出现问题,往往需要耗费精力梳理业务架构来定位故障点。K8s 虽然提供了服务发现等能力,让业务方可更专注于业务逻辑,但这类功能的实现分布在各个节点或者 Pod 之中,一旦出现异常,要花费大量时间摸排问题点。为了解决这一痛点并强化业务可观测性,本文将介绍 DeepFlow 在腾讯 TKE 内部平台上的实践经验。
DeepFlow 智能体发布!开启业务连续性保障新时代
随着大型语言模型(LLM)日臻成熟,AI 智能体(AI Agent)从概念走向实际应用的时代已然到来。在众多的智能体使用场景中,可观测性天然具备智能体成功落地的三大要素:高质量的结构化数据、功能丰富的专业工具,以及明确的业务目标——保障系统稳定性。通过将先进的 AI 技术与可观测性场景融合,DeepFlow 智能体能够自主感知环境、推理决策并执行任务,为 IT 团队提供从日常巡检到快速诊断的全方位支持。这不仅提升了运维效率,更将 IT 人员从繁琐的日常任务中解放出来,使他们能够紧跟技术趋势,驾驭先进的 AI 工具,为业务连续性提供更坚实的保障。
慢调用排查实录:高效定界服务网格 Sidecar 性能瓶颈
某车企在测试新业务时,发现某测试集群(A-Test-Cluster)的请求响应时间异常,而业务 POD 内部响应正常,初步排除业务逻辑问题后,故障被定位为网络层面性能瓶颈。本次案例揭示了复杂异构测试环境中的两大挑战:底层架构的“黑盒化”导致根因难以识别,以及架构的多样性(如服务网格和定制化代理)加剧了问题排查的复杂性。通过引入 DeepFlow 的全栈可观测性能力,利用 eBPF 技术追踪请求全生命周期,结合拓扑分析、调用日志和持续剖析,精准定位问题源头为 Sidecar 代理在处理 304 响应时的阻塞缺陷。经过研发团队修复,问题得以解决。本案例展示了 DeepFlow 在复杂环境中快速定界故障的强大能力,其中立、全面的观测数据和跨层级的追踪能力显著提升了性能问题的定位与解决效率,为异构架构下的故障排查提供了可靠支持。
深度解析 DeepFlow 如何采集大模型服务的业务指标
为高质量支撑 2024 年客服大模型商用,中国移动构建了客服大模型“混合云”生产环境,确保大模型应用安全稳定运行、智算资源高效利用。面对当前跨云调用拓扑的复杂性,以及运维保障与业务运营中服务质量观测指标的缺失问题,多团队共同合作基于 eBPF 与 Wasm 技术构建客服大模型生产运行态可观测能力。
3 分钟诊断 Tomcat TCP 超时参数配置错误引发的概率性交易失败
某银行分布式核心交易系统运行过程中,遇到了偶发性、无规律的交易失败,由于交易请求海量、通信关系复杂、App 实例动态等系统特点,传统监控工具的诊断能力受限,此类故障诊断极其困难。但在本篇案例中,您将看到 DeepFlow 可观测平台提供的 Full Stack(全栈)、End to End(全链路)、Any Request(每一次应用调用)观测能力,精细化分析每一次失败交易的端到端过程,用 3 分钟时间、5 步操作,通过可观测性数据客观诊断出故障根因。
eBPF 可观测性技术 3 分钟锁定银行信创云垃圾文件罪魁祸首
在某国有银行的信创云日常运维中,发现大量未知的垃圾文件,存在严重的系统运行隐患,其承载的分布式核心交易系统的运行稳定性随时可能受到影响,运维人员尝试寻找产生垃圾文件的源程序,但却发现传统监控工具对未知程序在未知时间、未知节点、未知路径,写入未知文件的故障诊断并不是一件容易的事情,而 DeepFlow 使用 eBPF 技术实现的可观测性可以为运维人员提供纤毫毕现的文件读写观测能力,让此类问题的诊断定位变得极其轻松。
故障诊断 3 分钟锁定分布式核心数据库,加速金融科技信创开发、测试、迁移
金融行业信创迁移过程中,故障定界困难、定位周期长、开发测试速度缓慢、生产运行风险高等因素正在不断地拖慢相关工作的效率和速度。如何让金融科技部门的业务信创迁移更快、更高效、更平滑?DeepFlow 通过 eBPF 带来的零侵扰、全栈、全链路可观测性技术,可以大幅度提升信创全系统的可观测性,从根本上扫除信创道路的技术阻碍。通过本篇案例您将了解到,某股份制银行在分布式核心交易业务向信创平台迁移的开发测试过程中,如何通过 DeepFlow 平台仅用 3 分钟时间将问题根因锁定到分布式核心数据库,快速消除不同运维技术栈之间的定位分歧,快速解决故障,加速开发测试速度。
金山办公基于 DeepFlow 的零侵扰可观测性实践
金山私有化项目在可观测性建设中,面临数据孤岛和缺乏全局视图的挑战,影响了问题排查效率。为此,引入 DeepFlow 和 eBPF 技术,打通了指标、追踪和日志数据的联动,提供了全局微服务调用关系。通过分阶段建设,已完成第一期目标,实现了从被动排障到主动观测的转变,提升了系统稳定性和运维效率。
eBPF 零侵扰分布式追踪 3 分钟锁定 Java 程序 I/O 线程阻塞
I/O 线程阻塞是Java 程序经常出现的问题之一,此类故障发生时 Java 程序的请求、响应在 I/O 线程向操作系统 Socket Buffer 读/写过程中发生阻塞,由于在业务代码插桩无法观测到 I/O 线程的工作情况和性能表现,因而导致故障非常隐蔽和难以诊断定位。通过本篇案例您将了解到,某银行的开发工程师如何使用 eBPF 技术带来的零侵扰追踪能力,在某次分布式核心交易系统上线信创平台的非功能测试(性能压测)故障诊断中,用 3 分钟时间锁定 Java 程序 I/O 线程阻塞。
18