龙蜥智算基础设施联盟成立,构建AI高效算力体系
在2025开放计算技术大会上,阿里云、浪潮信息、中科方德、中兴通讯等成员单位,十余家国内外芯片厂商,以及清华大学、上海交大等高校和FlagOS社区等单位共同发起成立“龙蜥智算联盟”,通过建立测试基准及性能优化方法,统一维护并更新社区主线版本,建设开源AI框架与芯片适配平台等举措,提升AI基础设施性能和稳定性,建设AI开源生态。
AI时代的浪潮汹涌澎湃,彻底改变了技术发展的格局。
随着生成式AI的爆发,算力需求呈指数级增长;而AI应用的快速发展,进一步加剧了底层硬件需求,加速卡、存储不断增长,单机功率、密度越来越大,数据中心规模也持续扩张。在这样的背景下,传统操作系统面临着诸多挑战。而在开源操作系统的璀璨星河里,龙蜥社区已凭借自身的战略定位与技术创新,划出了一道闪亮的轨迹。
携手建联盟,龙蜥启新程
为了更好地迎接AI时代的挑战,推动操作系统与AI的深度融合,龙蜥智算基础设施联盟(以下简称“龙蜥智算联盟”)在2025开放计算技术大会上应运而生。
阿里云、浪潮信息、中科方德、中兴通讯等成员单位,十余家国内外芯片厂商,以及清华大学、上海交大等高校和FlagOS社区等单位共同发起成立“龙蜥智算联盟”,通过建立测试基准及性能优化方法,统一维护并更新社区主线版本,建设开源AI框架与芯片适配平台等举措,提升AI基础设施性能和稳定性,建设AI开源生态。
龙蜥社区技术委员会主席杨勇表示,为打破生态割裂,推动全栈协同创新,构建面向未来的自主高效算力基础设施体系,龙蜥社区联合成员单位共同成立龙蜥智算联盟,以服务产业智能化升级的迫切需求,助推夯实数字经济基石。
龙蜥社区技术委员会主席杨勇
龙蜥智算联盟的成立,有着清晰且极具针对性的目标与规划。在技术攻坚上,将建立系统兼容性测试基准,减少GPU与不同商业版适配工作量,降低开发和维护成本;统一维护并更新社区主线版本KABI白名单,加强上游原生版本兼容能力,保障系统的稳定性与兼容性;建设开源AI框架与国内AI芯片的适配平台,做好系统全栈适配及性能优化,提升AI基础设施的整体性能。
在标准制定方面,围绕GPU兼容性测试形成一致性标准规范,构建统一的标准技术规范,提升AI基础设施可靠性,让不同厂商的硬件与软件能够在统一标准下协同工作,避免因标准混乱导致的兼容性问题。
龙蜥智算联盟还将在人才培养、技术交流、生态推广等方面发力。通过汇聚AI芯片、服务器、操作系统、应用开发及高校等产业链各方力量,整合资源,形成合力。高校的科研力量可以为联盟提供创新思路与理论支持,企业则能够将技术快速转化为实际产品与应用,在产学研的协同创新中,推动AI技术的持续发展与创新。
“对于龙蜥操作系统而言,龙蜥智算联盟的成立意义非凡。它为龙蜥操作系统在AI时代的发展提供了强大的组织保障与资源支撑。借助联盟的力量,龙蜥操作系统能够更深入地参与到AI技术的研发与应用中,与产业链上下游紧密合作,针对AI应用场景进行系统优化,提升在多元算力调度、性能与安全保障等方面的能力,从而打造出更贴合AI时代需求的‘AI原生操作系统’。”龙蜥智算联盟主席宋卓这样解释。
龙蜥智算基础设施联盟主席宋卓
老将+新兵:志同道合的龙蜥朋友圈
在龙蜥智算联盟的专访中,当一老(浪潮信息)、一新(FlagOS)两个发起方同时出现的时候,不禁让人会心一笑。
了解龙蜥社区的朋友都知道,浪潮信息是龙蜥社区的副理事长单位之一,也是此次龙蜥智算联盟成立的中坚力量。据浪潮信息系统软件产品部总经理苏志远介绍,浪潮信息将牵头负责联盟系统性能分析及优化工作,推动建立覆盖推理全流程的性能分析方法,优化提升异构算力场景下推理性能表现,构建覆盖主流模型及硬件组合的性能基准测试库,并协同制定RAS软硬件协同方案,确保AI基础设施对大模型具有稳定高效的支持能力。
浪潮信息系统软件产品部总经理苏志远
具体说来,首先,针对AI推理场景下性能瓶颈,构建从用户请求、任务调度,到推理计算、结果响应全流程的推理性能分析方法,形成相关分析工具及优化方法,实现性能瓶颈快速定位;其次,基于上述分析工具和优化方法,面向CPU+GPU异构协同推理场景,开展性能分析与优化专项;第三,通过产学研联合攻关,构建面向智算系统的性能基准测试库,覆盖主流模型及硬件组合,更加有效、客观评价智算业务系统性能水平,为业务系统优化升级提供依据;此外,在提升AI基础设施可靠性方面,浪潮信息联合系统、芯片等AI基础设施相关方,制定面向大规模场景的调试信息转储规范,统一日志格式、抓取范围及协议,避免日志信息不全导致的复现成本及分析成本,提升大规模场景下RAS故障处理能力。
“新兵”FlagOS则联合多家厂商共同打造的面向大模型、支持异构算力的智算集群“操作系统”。作为面向多种AI芯片的系统软件栈,FlagOS旨在解决大模型训练和推理中的异构计算、高速互联和弹性稳定等技术挑战,为用户提供统一、开源开放的系统软件,支撑各种大模型在不同AI芯片上的高效易用,挣脱算力束缚。
同样作为操作系统社区,FlagOS社区与龙蜥社区在成员、用户等方面有较多重合。这次之所以走到一起,FlagOS社区秘书长朱其罡表示:“在AI时代,越来越多AI云原生应用需求爆发,FlagOS偏系统工具层的社区,同样面临着如何在不同的服务器上快速跑多个大模型应用的问题。这种潮流推动着FlagOS走出去,主动与龙蜥社区融合,共同发起成立龙蜥智算基础设施联盟。”
FlagOS社区秘书长朱其罡
另一方面,早在2024年12月,浪潮信息与FlagOS社区创始单位达成战略合作协议,双方宣布将紧密协作共建大模型多元算力开源创新生态,提升大模型创新研发的算力效率,降低大模型应用开发的算力门槛,持续推进硬件开放与软件开源,以开源开放、多元多模激发创新活力,以多元算力系统生态加速创新落地。此次双双携手发起龙蜥智算基础设施联盟,也算是合作的延续。
采访中,朱其罡提到的一点让笔者印象深刻:“社区虽看似松散,但它是基于共识形成的,这种共识一旦形成,战斗力还是比较强的,而且它从流程上、代码质量上是有保障的。”
龙蜥智算联盟,可以说是为龙蜥社区的AI时代进化而生。
一句话作为总结:龙蜥智算联盟,是助力龙蜥社区面向AI时代持续进化得组织保障。
更多推荐
所有评论(0)