FlagOS(众智FlagOS)面向大模型、支持异构算力的开源系统软件栈,支持华为、寒武纪等几乎所有芯片,算子,算子库的名词解释

FlagOS(众智FlagOS)是由北京智源人工智能研究院牵头,联合多家芯片厂商、系统厂商、科研机构等共同研发的面向大模型、支持异构算力的开源系统软件栈,被称为人工智能大模型的"操作系统"。

核心定位

FlagOS 旨在解决当前 AI 算力生态的核心痛点:

  • 打破硬件生态壁垒:解决不同架构 AI 芯片之间的软件生态隔离问题
  • 实现"一次开发,处处运行":让大模型能够在多种硬件上高效运行,无需重复适配
  • 降低迁移成本:将原本需要数月的跨芯片业务代码迁移工作大幅简化

技术架构

FlagOS 采用"4+3"模式,即四大核心开源技术库 + 三大开源工具平台:

核心组件 功能说明
FlagScale 并行训推一体框架,支持异构集群训练和推理自动调优
FlagGems 高性能通用 AI 算子库(全球最大、支持芯片种类最多的大模型通用算子库)
FlagAttention 高性能算子库
FlagTree 统一多后端的增强版 Triton 编译器
FlagCX 统一通信库,实现跨芯片高效通信
FlagRelease 自动大模型多芯片发版平台
九鼎平台 多芯片智算集群管理平台

关键数据

  • 支持芯片:超过 20 种国内外主流 AI 芯片型号,覆盖 17 家芯片厂商(包括英伟达、华为昇腾、寒武纪、海光、摩尔线程等)
  • 管理规模:管理超过 5600+ AI 加速卡
  • 稳定性:SLA(服务可用性)超过 99.6%
  • 开源社区:600+ 全球开源社区开发者贡献

重要里程碑

  • 2025年2月:首次实现 DeepSeek-R1 满血版(6710亿参数)多芯片高效部署,效果对齐英伟达 GPU
  • 2025年6月:FlagGems 作为唯一支持多架构的算子库正式加入 PyTorch 基金会生态项目体系
  • 2025年9月:FlagOS 1.5 正式发布,实现最高 36.8% 训练加速和 20% 推理加速,通信效率提升 2.5 倍
  • 2026年1月:FlagOS 1.6 发布,全面深化对具身智能的全栈支持

开源信息

FlagOS 从立项之初就选择完全开源,代码托管在 GitHub 和 Gitee 平台:

  • 官网:https://flagos.io
  • GitHub:https://github.com/flagos-ai
  • 文档:https://docs.flagos.io

FlagOS 的出现标志着全球 AI 底层技术生态正迈入以"开放计算"为核心理念的协同创新新阶段,对于打破国外芯片软件栈的垄断、构建自主可控的 AI 算力生态具有重要意义。

我来搜索一下关于"算子库"的详细解释,特别是 AI 领域的算子概念。
算子库(Operator Library)是深度学习框架和 AI 系统的核心基础设施,简单来说就是预先封装好的高性能计算函数集合

什么是"算子"?

算子(Operator,简称 OP)是深度学习中的基本计算单元,可以理解为对张量(Tensor)执行的具体计算操作。

常见算子示例:

算子名称 功能说明 应用场景
MatMul 矩阵乘法 全连接层、注意力机制
Convolution 卷积运算 图像特征提取
Softmax 归一化指数函数 分类输出、注意力权重
ReLU 激活函数 引入非线性
LayerNorm 层归一化 稳定训练
Concat 张量拼接 特征融合
Pooling 池化操作 降维、特征压缩

为什么需要"算子库"?

1. 避免重复造轮子

如果没有算子库,开发者每次搭建神经网络都要自己实现卷积、矩阵乘法等基础运算,工作量巨大且容易出错。

2. 硬件深度优化

算子库中的每个算子都针对特定硬件(GPU、NPU、CPU)进行了深度优化:

  • 使用硬件专用指令集(如 CUDA、昇腾 CANN)
  • 针对不同的输入形状(Shape)自动选择最优算法
  • 内存访问模式优化

3. "搭积木"式开发

开发者可以像搭积木一样组合算子构建复杂模型,无需关心底层实现细节。

算子库的典型架构

以华为昇腾的 AOL 算子库为例:

昇腾算子库(1400+ 算子)
├── NN 算子库(神经网络算子)→ Softmax、MatMul、Convolution 等
├── BLAS 算子库(线性代数)→ 矩阵乘、向量运算
├── DVPP 算子库(媒体处理)→ 视频编解码、图像预处理
├── AIPP 算子库(AI预处理)→ 图像归一化、格式转换
└── HCCL 算子库(通信算子)→ 多卡并行通信

FlagOS 的算子库:FlagGems

FlagOS 的核心组件 FlagGems 是目前全球最大、支持芯片种类最多的大模型通用算子库,其特点是:

  • 跨芯片兼容:一套代码可在英伟达、华为昇腾、寒武纪、海光等 20+ 种芯片上运行
  • 自动生成:基于 Triton 编译器技术,自动生成适配不同硬件的高性能内核
  • 统一接口:开发者只需调用一次,无需为不同芯片重写代码

通俗类比

如果把 AI 模型比作一道菜:

  • 算子 = 切菜、炒菜、调味等具体烹饪动作
  • 算子库 = 一本经过专业厨师优化的"标准菜谱",告诉你每种食材怎么处理最高效
  • FlagGems = 一本"万能菜谱",不管用燃气灶(英伟达)、电磁炉(华为)还是电陶炉(寒武纪),都能自动调整火候做出同样的菜

这样,AI 开发者就可以专注于"菜品设计"(模型架构),而不必操心"厨房设备"(硬件适配)的细节。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐