FlagOS（众智FlagOS）面向大模型、支持异构算力的开源系统软件栈，支持华为、寒武纪等几乎所有芯片，算子，算子库的名词解释

算子（Operator，简称 OP）是深度学习中的基本计算单元，可以理解为对张量（Tensor）执行的具体计算操作。算子名称功能说明应用场景MatMul矩阵乘法全连接层、注意力机制卷积运算图像特征提取Softmax归一化指数函数分类输出、注意力权重ReLU激活函数引入非线性LayerNorm层归一化稳定训练Concat张量拼接特征融合Pooling池化操作降维、特征压缩。

zhangfeng1133

661人浏览 · 2026-02-10 04:53:36

zhangfeng1133 · 2026-02-10 04:53:36 发布

FlagOS（众智FlagOS）面向大模型、支持异构算力的开源系统软件栈，支持华为、寒武纪等几乎所有芯片，算子，算子库的名词解释

FlagOS（众智FlagOS）是由北京智源人工智能研究院牵头，联合多家芯片厂商、系统厂商、科研机构等共同研发的面向大模型、支持异构算力的开源系统软件栈，被称为人工智能大模型的"操作系统"。

核心定位

FlagOS 旨在解决当前 AI 算力生态的核心痛点：

打破硬件生态壁垒：解决不同架构 AI 芯片之间的软件生态隔离问题
实现"一次开发，处处运行"：让大模型能够在多种硬件上高效运行，无需重复适配
降低迁移成本：将原本需要数月的跨芯片业务代码迁移工作大幅简化

技术架构

FlagOS 采用"4+3"模式，即四大核心开源技术库 + 三大开源工具平台：

核心组件	功能说明
FlagScale	并行训推一体框架，支持异构集群训练和推理自动调优
FlagGems	高性能通用 AI 算子库（全球最大、支持芯片种类最多的大模型通用算子库）
FlagAttention	高性能算子库
FlagTree	统一多后端的增强版 Triton 编译器
FlagCX	统一通信库，实现跨芯片高效通信
FlagRelease	自动大模型多芯片发版平台
九鼎平台	多芯片智算集群管理平台

关键数据

支持芯片：超过 20 种国内外主流 AI 芯片型号，覆盖 17 家芯片厂商（包括英伟达、华为昇腾、寒武纪、海光、摩尔线程等）
管理规模：管理超过 5600+ AI 加速卡
稳定性：SLA（服务可用性）超过 99.6%
开源社区：600+ 全球开源社区开发者贡献

重要里程碑

2025年2月：首次实现 DeepSeek-R1 满血版（6710亿参数）多芯片高效部署，效果对齐英伟达 GPU
2025年6月：FlagGems 作为唯一支持多架构的算子库正式加入 PyTorch 基金会生态项目体系
2025年9月：FlagOS 1.5 正式发布，实现最高 36.8% 训练加速和 20% 推理加速，通信效率提升 2.5 倍
2026年1月：FlagOS 1.6 发布，全面深化对具身智能的全栈支持

开源信息

FlagOS 从立项之初就选择完全开源，代码托管在 GitHub 和 Gitee 平台：

官网：https://flagos.io
GitHub：https://github.com/flagos-ai
文档：https://docs.flagos.io

FlagOS 的出现标志着全球 AI 底层技术生态正迈入以"开放计算"为核心理念的协同创新新阶段，对于打破国外芯片软件栈的垄断、构建自主可控的 AI 算力生态具有重要意义。

我来搜索一下关于"算子库"的详细解释，特别是 AI 领域的算子概念。
算子库（Operator Library）是深度学习框架和 AI 系统的核心基础设施，简单来说就是预先封装好的高性能计算函数集合。

什么是"算子"？

算子（Operator，简称 OP）是深度学习中的基本计算单元，可以理解为对张量（Tensor）执行的具体计算操作。

常见算子示例：

算子名称	功能说明	应用场景
MatMul	矩阵乘法	全连接层、注意力机制
Convolution	卷积运算	图像特征提取
Softmax	归一化指数函数	分类输出、注意力权重
ReLU	激活函数	引入非线性
LayerNorm	层归一化	稳定训练
Concat	张量拼接	特征融合
Pooling	池化操作	降维、特征压缩

为什么需要"算子库"？

1. 避免重复造轮子

如果没有算子库，开发者每次搭建神经网络都要自己实现卷积、矩阵乘法等基础运算，工作量巨大且容易出错。

2. 硬件深度优化

算子库中的每个算子都针对特定硬件（GPU、NPU、CPU）进行了深度优化：

使用硬件专用指令集（如 CUDA、昇腾 CANN）
针对不同的输入形状（Shape）自动选择最优算法
内存访问模式优化

3. "搭积木"式开发

开发者可以像搭积木一样组合算子构建复杂模型，无需关心底层实现细节。

算子库的典型架构

以华为昇腾的 AOL 算子库为例：

昇腾算子库（1400+ 算子）
├── NN 算子库（神经网络算子）→ Softmax、MatMul、Convolution 等
├── BLAS 算子库（线性代数）→ 矩阵乘、向量运算
├── DVPP 算子库（媒体处理）→ 视频编解码、图像预处理
├── AIPP 算子库（AI预处理）→ 图像归一化、格式转换
└── HCCL 算子库（通信算子）→ 多卡并行通信

FlagOS 的算子库：FlagGems

FlagOS 的核心组件 FlagGems 是目前全球最大、支持芯片种类最多的大模型通用算子库，其特点是：

跨芯片兼容：一套代码可在英伟达、华为昇腾、寒武纪、海光等 20+ 种芯片上运行
自动生成：基于 Triton 编译器技术，自动生成适配不同硬件的高性能内核
统一接口：开发者只需调用一次，无需为不同芯片重写代码

通俗类比

如果把 AI 模型比作一道菜：

算子 = 切菜、炒菜、调味等具体烹饪动作
算子库 = 一本经过专业厨师优化的"标准菜谱"，告诉你每种食材怎么处理最高效
FlagGems = 一本"万能菜谱"，不管用燃气灶（英伟达）、电磁炉（华为）还是电陶炉（寒武纪），都能自动调整火候做出同样的菜

这样，AI 开发者就可以专注于"菜品设计"（模型架构），而不必操心"厨房设备"（硬件适配）的细节。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

VSCode 正式发布：全新多智能体开发平台

2048 AI社区

【C++篇】C++11新特性总结

/自定义类型 //本质是{2025，1，1}构造出临时对象，再拷贝给d1，但是编译器优化为直接用{2025，1，1}构造d1 Date d1 = { 2025,1,1 };//这里的d2引用的是{2024，7，2}的临时对象 const Date& d2 = { 2024,7,2 };//这里pair对象的{}初始化和map的initializer_list构造结合到一起了 map<string,

2048 AI社区

【Linux网络】深入理解守护进程(Daemon)及其实现原理

我们都知道，进程拥有一个进程ID(PID）。PGID，这个代表就是进程组ID。代码语言：javascriptAI代码解释一个进程必然属于一个进程组。一个进程组中可以有一个 or 多个进程。上面我们谈到了进程组，会话其实与进程组紧密相关会话，是一个 or 多个进程组的集合！一个会话可以包含一个 or 多个进程组通常，我们使用管道将几个进程编成一个进程组。如上图中的进程组2、进程组3。代码语言：jav