FlagOS(众智FlagOS)面向大模型、支持异构算力的开源系统软件栈,支持华为、寒武纪等几乎所有芯片,算子,算子库的名词解释
算子(Operator,简称 OP)是深度学习中的基本计算单元,可以理解为对张量(Tensor)执行的具体计算操作。算子名称功能说明应用场景MatMul矩阵乘法全连接层、注意力机制卷积运算图像特征提取Softmax归一化指数函数分类输出、注意力权重ReLU激活函数引入非线性LayerNorm层归一化稳定训练Concat张量拼接特征融合Pooling池化操作降维、特征压缩。
FlagOS(众智FlagOS)面向大模型、支持异构算力的开源系统软件栈,支持华为、寒武纪等几乎所有芯片,算子,算子库的名词解释
FlagOS(众智FlagOS)是由北京智源人工智能研究院牵头,联合多家芯片厂商、系统厂商、科研机构等共同研发的面向大模型、支持异构算力的开源系统软件栈,被称为人工智能大模型的"操作系统"。
核心定位
FlagOS 旨在解决当前 AI 算力生态的核心痛点:
- 打破硬件生态壁垒:解决不同架构 AI 芯片之间的软件生态隔离问题
- 实现"一次开发,处处运行":让大模型能够在多种硬件上高效运行,无需重复适配
- 降低迁移成本:将原本需要数月的跨芯片业务代码迁移工作大幅简化
技术架构
FlagOS 采用"4+3"模式,即四大核心开源技术库 + 三大开源工具平台:
| 核心组件 | 功能说明 |
|---|---|
| FlagScale | 并行训推一体框架,支持异构集群训练和推理自动调优 |
| FlagGems | 高性能通用 AI 算子库(全球最大、支持芯片种类最多的大模型通用算子库) |
| FlagAttention | 高性能算子库 |
| FlagTree | 统一多后端的增强版 Triton 编译器 |
| FlagCX | 统一通信库,实现跨芯片高效通信 |
| FlagRelease | 自动大模型多芯片发版平台 |
| 九鼎平台 | 多芯片智算集群管理平台 |
关键数据
- 支持芯片:超过 20 种国内外主流 AI 芯片型号,覆盖 17 家芯片厂商(包括英伟达、华为昇腾、寒武纪、海光、摩尔线程等)
- 管理规模:管理超过 5600+ AI 加速卡
- 稳定性:SLA(服务可用性)超过 99.6%
- 开源社区:600+ 全球开源社区开发者贡献
重要里程碑
- 2025年2月:首次实现 DeepSeek-R1 满血版(6710亿参数)多芯片高效部署,效果对齐英伟达 GPU
- 2025年6月:FlagGems 作为唯一支持多架构的算子库正式加入 PyTorch 基金会生态项目体系
- 2025年9月:FlagOS 1.5 正式发布,实现最高 36.8% 训练加速和 20% 推理加速,通信效率提升 2.5 倍
- 2026年1月:FlagOS 1.6 发布,全面深化对具身智能的全栈支持
开源信息
FlagOS 从立项之初就选择完全开源,代码托管在 GitHub 和 Gitee 平台:
- 官网:https://flagos.io
- GitHub:https://github.com/flagos-ai
- 文档:https://docs.flagos.io
FlagOS 的出现标志着全球 AI 底层技术生态正迈入以"开放计算"为核心理念的协同创新新阶段,对于打破国外芯片软件栈的垄断、构建自主可控的 AI 算力生态具有重要意义。
我来搜索一下关于"算子库"的详细解释,特别是 AI 领域的算子概念。
算子库(Operator Library)是深度学习框架和 AI 系统的核心基础设施,简单来说就是预先封装好的高性能计算函数集合。
什么是"算子"?
算子(Operator,简称 OP)是深度学习中的基本计算单元,可以理解为对张量(Tensor)执行的具体计算操作。
常见算子示例:
| 算子名称 | 功能说明 | 应用场景 |
|---|---|---|
| MatMul | 矩阵乘法 | 全连接层、注意力机制 |
| Convolution | 卷积运算 | 图像特征提取 |
| Softmax | 归一化指数函数 | 分类输出、注意力权重 |
| ReLU | 激活函数 | 引入非线性 |
| LayerNorm | 层归一化 | 稳定训练 |
| Concat | 张量拼接 | 特征融合 |
| Pooling | 池化操作 | 降维、特征压缩 |
为什么需要"算子库"?
1. 避免重复造轮子
如果没有算子库,开发者每次搭建神经网络都要自己实现卷积、矩阵乘法等基础运算,工作量巨大且容易出错。
2. 硬件深度优化
算子库中的每个算子都针对特定硬件(GPU、NPU、CPU)进行了深度优化:
- 使用硬件专用指令集(如 CUDA、昇腾 CANN)
- 针对不同的输入形状(Shape)自动选择最优算法
- 内存访问模式优化
3. "搭积木"式开发
开发者可以像搭积木一样组合算子构建复杂模型,无需关心底层实现细节。
算子库的典型架构
以华为昇腾的 AOL 算子库为例:
昇腾算子库(1400+ 算子)
├── NN 算子库(神经网络算子)→ Softmax、MatMul、Convolution 等
├── BLAS 算子库(线性代数)→ 矩阵乘、向量运算
├── DVPP 算子库(媒体处理)→ 视频编解码、图像预处理
├── AIPP 算子库(AI预处理)→ 图像归一化、格式转换
└── HCCL 算子库(通信算子)→ 多卡并行通信
FlagOS 的算子库:FlagGems
FlagOS 的核心组件 FlagGems 是目前全球最大、支持芯片种类最多的大模型通用算子库,其特点是:
- 跨芯片兼容:一套代码可在英伟达、华为昇腾、寒武纪、海光等 20+ 种芯片上运行
- 自动生成:基于 Triton 编译器技术,自动生成适配不同硬件的高性能内核
- 统一接口:开发者只需调用一次,无需为不同芯片重写代码
通俗类比
如果把 AI 模型比作一道菜:
- 算子 = 切菜、炒菜、调味等具体烹饪动作
- 算子库 = 一本经过专业厨师优化的"标准菜谱",告诉你每种食材怎么处理最高效
- FlagGems = 一本"万能菜谱",不管用燃气灶(英伟达)、电磁炉(华为)还是电陶炉(寒武纪),都能自动调整火候做出同样的菜
这样,AI 开发者就可以专注于"菜品设计"(模型架构),而不必操心"厨房设备"(硬件适配)的细节。
更多推荐

所有评论(0)