北京,2025年11月17日 —— 在行业瞩目的龙蜥操作系统大会上,DeepFlow全栈可观测性平台阿里云操作系统控制台 SysOM 组件基于龙蜥社区开源 SysOM 项目 共同构建的“AI 基础设施可观测解决方案”,荣获大会颁发的“最佳联合解决方案奖”。该奖项不仅是对双方技术融合与协同创新能力的认可,也标志着在 AI 算力爆发式增长背景下,可观测性正成为支撑大模型稳定运行与高效调优的关键核心。

在 LLM 大模型训练与推理的全流程中,企业常面临 GPU 利用率低下训练任务夯住请求响应延迟高等典型性能瓶颈。尤其在异构环境下数据难以关联分析,导致问题定位困难、调优效率低下,严重影响模型迭代与业务上线进度。

为此,龙蜥社区运维联盟成员阿里云云杉网络展开深度合作,基于双方在云基础设施与可观测性领域的技术积累,共同构建了面向 AI 场景的全栈可观测方案。该方案针对异构环境下缺乏全局关联 ID性能数据孤岛等行业难题,依托 eBPF 零侵扰采集技术,实现了从 CPU 到 GPU、从应用到基础设施的全栈指标统一采集与智能关联,并具备全局维度的调用链串联能力,可精准定位系统抖动、通信延迟、算力瓶颈等各类性能问题,为AI训练与推理提供持续优化的观测支撑。

目前,该联合方案已在金融、电信、保险等行业的核心业务系统中落地验证,助力企业实现 AI 算力的高效利用与服务的稳定可靠。此次与阿里云一站式 OS 运维平台(阿里云操作系统控制台)的深度融合,进一步拓展了 DeepFlow 在开源生态中的影响力,推动可观测能力向更广泛的 AI 基础设施场景延伸。

共建坚不可摧的国产 AI 基础设施可观测新生态

此次获奖,不仅是对技术能力的肯定,更展现了中国本土基础软件生态协同能力。阿里云操作系统控制台提供了在操作系统内核层的诊断权威性,确保了 AI 集群底座的稳定性和资源调度的高效性。DeepFlow 则通过 eBPF 提供了覆盖网络应用容器Host 和 Device 的全栈关联视野。两者的结合,代表了中国本土基础软件生态在关键领域实现了“可观测性”与“系统稳定性”的完美融合,为国家信创战略下构建高性能、高可靠的异构 AI 算力中心提供了坚实保障。

未来,云杉网络将继续携手阿里云及龙蜥社区运维联盟 SOMA 的合作,持续推进技术融合与解决方案创新,助力千行百业构建稳定、高效、透明的AI基础设施,推动智能时代的企业数字化转型。

了解方案及相关案例细节请参阅以下文章

  • 深度解析 DeepFlow 如何采集大模型服务的业务指标「链接」
  • 某证券可观测性再升级!DeepFlow 排障智能体和智算可观测性建设实践「链接」
  • SysOM 可观测体系建设(一):万字长文解读低开销、高精度性能剖析工具livetrace「链接」
  • SysOM AI 可观测体系:零侵入、低开销,让系统透明化「链接」

龙蜥社区

龙蜥社区(OpenAnolis)是立足中国、面向国际的Linux服务器操作系统开源社区,引领云智融合技术浪潮下国产操作系统的创新发展。社区理事会由阿里云、中兴通讯、海光信息、浪潮信息、统信软件、Intel等25家国内外头部企业共同组成。社区生态伙伴超1000家,来自芯片厂商、软件厂商、整机厂商、操作系统厂商等,覆盖操作系统全产业链参与生态共建。龙蜥操作系统装机量达1000万,服务了金融、通信、政务、能源、交通等众多行业超过200多万用户。

DeepFlow 社区

DeepFlow 开源项目旨在为复杂的云原生及 AI 应用提供深度可观测性。DeepFlow 基于 eBPF 实现了应用性能指标、分布式追踪、持续性能剖析等观测信号的零侵扰(Zero Code)采集,并结合智能标签(SmartEncoding)技术实现了所有观测信号的全栈(Full Stack)关联和高效存取。使用 DeepFlow,可以让云原生及 AI 应用自动具有深度可观测性,从而消除开发者不断插桩的沉重负担,并为 DevOps/SRE 团队提供从代码到基础设施的监控及诊断能力。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐