Triton算子十年演进

Triton算子十年演进（2015-2025）摘要 OpenAI Triton算子完成了从理论原型到行业标准的蜕变，重构了GPU编程范式。2015-2017年萌芽期，哈佛团队提出分块编译理论；2018-2020年确立Block级编程模型，Python DSL降低开发门槛；2021-2023年爆发期，成为PyTorch 2.0默认GPU后端，支撑FlashAttention等大模型核心算子；2024

jzwspace

379人浏览 · 2026-03-02 09:41:27

jzwspace · 2026-03-02 09:41:27 发布

Triton算子十年演进（2015-2025）

2015-2025年，是OpenAI Triton算子完成从理论原型到打破CUDA垄断、成为大模型时代GPU编程事实标准的黄金十年。它以“Python级语法、专家级性能”为核心理念，彻底重构了GPU算子开发的底层逻辑，将原本只有CUDA专家才能完成的高性能内核开发，变成了普通AI开发者可及的普惠技术，从学术原型成长为万亿参数大模型训练、端侧AI部署、跨硬件适配的核心基础设施。

注：本文聚焦OpenAI Triton（类Python的GPU内核编程DSL与编译器），而非NVIDIA Triton Inference Server推理部署框架，二者是完全独立的两个项目。

Triton算子的核心本质，是OpenAI主导开发的开源领域特定语言（DSL）与即时编译器，采用Block级编程模型，通过Pythonic的语法实现GPU内核开发，由编译器自动完成内存调度、线程同步、硬件指令优化等底层工作，无需开发者手工管理CUDA线程、共享内存与寄存器。它解决了传统CUDA编程门槛高、开发周期长、跨硬件适配难的核心痛点，25行代码即可实现媲美手工CUDA的矩阵乘法性能，是PyTorch 2.0+ torch.compile的默认GPU代码生成后端。

这十年，Triton算子的演进与Transformer革命、大模型爆发、异构算力崛起深度绑定，完成了**「CUDA垄断下的理论启蒙期、Block级编程范式确立期、大模型时代爆发跃升期、跨硬件全场景普及成熟期」**四次核心范式跃迁，算子开发效率提升超1000倍，性能逼近甚至超越手工优化的CUDA内核。

一、十年演进总纲与四大里程碑

Triton算子的十年演进，始终围绕易用性、性能、跨硬件适配、生态完整性四大核心主线，核心突破始终围绕“如何打破CUDA的技术垄断，让高性能GPU算子开发低门槛、跨平台、普惠化”，整体可划分为四大里程碑阶段，与AI产业的十年发展完全对齐：

2015-2017 启蒙萌芽期：CUDA完全垄断GPU算子开发，门槛极高，仅少数专家可完成手工内核优化；Triton的核心理论原型诞生，哈佛团队提出分块神经网络编译思路，为后续发展奠定基础。
2018-2020 范式确立期：Triton项目正式启动，2019年首次亮相学术圈，确立Block级编程模型；2020年完成Python DSL前端重构与MLIR编译器升级，彻底解决了CUDA编程的核心痛点，从理论原型走向可落地的工程化工具。
2021-2023 爆发跃升期：Triton 1.0正式开源，性能对标手工CUDA；2023年成为PyTorch 2.0 torch.compile的默认GPU后端，FlashAttention、MoE等大模型核心算子全面基于Triton开发，成为万亿参数大模型训练的标配工具，生态爆发式增长。
2024-2025 普及成熟期：Triton 3.x版本成熟，实现AMD、Intel、国产芯片等多硬件原生支持，成为跨异构算力的算子开发标准；国产算力深度适配，在自动驾驶、工业AI、端侧部署等场景实现规模化落地，从大模型专属工具进化为通用AI基础设施。

二、四大阶段详细演进详解

第一阶段：2015-2017 启蒙萌芽期——CUDA垄断时代，理论原型探索

产业背景

2015-2017年，深度学习进入第一次爆发期，AlexNet、VGG、ResNet等CNN架构先后突破，GPU成为深度学习的核心算力底座，但GPU算子开发完全被NVIDIA CUDA垄断。CUDA编程需要开发者手工管理线程调度、共享内存、寄存器分配、线程同步等底层硬件细节，门槛极高，只有少数资深专家能写出媲美cuBLAS、cuDNN的高性能内核，普通AI开发者完全无法触及，算子优化成为深度学习发展的核心瓶颈。

这一阶段，行业的算子优化完全依赖NVIDIA官方库与少数专家的手工CUDA开发，无通用、低门槛的替代方案，为Triton的诞生提供了核心产业背景。

核心技术演进

行业现状：CUDA是GPU算子开发的唯一主流方案，核心痛点包括：开发门槛极高，需要深厚的硬件知识；开发周期长，一个高性能内核需要数周优化；跨硬件适配难，不同架构GPU需要重新调优；编译器自动优化能力弱，大量底层细节需要手工控制。
理论原型突破：2017年，哈佛大学Philippe Tillet团队在MAPL workshop发表论文，提出分块神经网络编译（Tiled Neural Network Compilation） 思路，核心是通过分块抽象隐藏底层硬件细节，由编译器自动完成内存调度与优化，这是Triton算子的核心理论原型，打破了“只有手工CUDA才能实现高性能”的固有认知。
核心局限：仅为理论原型，无完整的工程化实现；仅支持简单的矩阵运算，无法适配复杂的神经网络算子；无Python前端，开发者使用门槛仍较高；未实现与主流深度学习框架的集成。

国产技术与落地状态

国内AI产业仍处于跟随阶段，算子优化完全依赖NVIDIA官方库与开源CUDA内核；仅少数头部企业与高校团队掌握CUDA内核开发能力，无自主的算子开发框架与编译技术；对Triton的理论原型无相关研究，处于完全的技术空白与跟随状态。

产业格局与核心痛点

产业格局：NVIDIA完全垄断GPU算子开发生态，CUDA+cuBLAS/cuDNN成为事实标准；99%的AI开发者无法自主开发高性能算子，完全依赖官方库与开源实现；无任何可替代CUDA的低门槛方案。
核心痛点：CUDA编程门槛极高，算子优化成为深度学习发展的核心瓶颈；算子开发周期长，无法匹配深度学习算法的快速迭代；NVIDIA硬件绑定严重，跨硬件适配完全无法实现；核心技术完全被海外垄断，国内无自主可控能力。

第二阶段：2018-2020 范式确立期——Triton正式诞生，Block级编程范式确立

产业背景

2017年Transformer架构正式发布，其全局注意力机制带来了全新的算子需求，传统CUDA内核开发的长周期、高门槛问题进一步凸显，行业对低门槛、高性能的算子开发框架的需求达到顶峰。2018年，Philippe Tillet加入OpenAI，正式启动Triton项目，将理论原型升级为完整的工程化框架，彻底重构了GPU算子开发的范式。

核心技术演进

核心范式确立：2019年，Tillet团队在MAPL workshop发布首篇Triton正式论文《Triton: An Intermediate Language and Compiler for Tiled Neural Network Computations》，正式确立了Block级编程模型的核心范式——开发者以Block为单位编写逻辑，无需关注单线程调度，由编译器自动完成内存合并、共享内存管理、线程同步、硬件指令优化等底层工作，彻底颠覆了CUDA的线程级编程模式。
工程化关键突破：
- 2020年，Triton完成Python DSL前端重构，开发者可通过类Python/Numpy的语法编写GPU内核，彻底解决了CUDA的多语言混合编程痛点，开发周期从数周缩短至数小时；
- 2020年，Triton完成基于MLIR的编译器重构，实现了更灵活的中间表示与硬件适配，英伟达深度参与适配，原生支持Ampere架构GPU与Tensor Core加速；
- 首次实现了矩阵乘法、卷积、softmax等核心神经网络算子的高性能实现，性能与手工优化的CUDA内核持平，部分场景甚至实现超越。
核心能力升级：从理论原型升级为完整的工程化框架；从仅支持简单运算，升级为适配全类型神经网络算子；从无前端接口，升级为Python原生DSL，开发门槛降低90%以上；从单硬件适配，升级为支持多代NVIDIA GPU架构，性能对标手工CUDA。

国产技术突破与落地

国内头部企业与高校开始关注Triton项目，少数团队开始尝试基于Triton开发自定义算子；华为、寒武纪等国产芯片厂商开始探索Triton的适配可能性；但核心仍以技术跟踪与初步尝试为主，无核心贡献与工程化落地，整体处于跟随状态。

产业格局与核心痛点

产业格局：CUDA仍占据绝对主流，但Triton的出现打破了CUDA的垄断格局，为开发者提供了低门槛的替代方案；OpenAI主导核心开发，英伟达深度参与，学术圈开始关注Triton的潜力；算子开发从“专家专属”走向“开发者可及”。
核心痛点：Triton仍处于早期阶段，生态不完善，未与主流深度学习框架集成；对复杂控制流、动态形状的支持不足；仅支持NVIDIA GPU，跨硬件能力有限；编译器优化深度仍不如手工CUDA，部分场景性能有差距。

第三阶段：2021-2023 爆发跃升期——开源生态爆发，大模型时代标配

产业背景

2022年底ChatGPT发布，彻底引爆了全球大模型产业，Transformer架构成为绝对主流，FlashAttention、MoE、分组GEMM等大模型核心算子的优化需求爆发式增长。传统CUDA开发无法匹配大模型算法的快速迭代，而Triton凭借低门槛、高性能的核心优势，成为大模型算子开发的首选工具，同时被PyTorch官方深度集成，完成了从小众工具到行业事实标准的跨越。

核心技术演进

开源与生态里程碑：2021年，Triton 1.0正式开源，官方演示了25行Python代码实现的FP16矩阵乘法内核，性能完全对标NVIDIA cuBLAS，而同等性能的CUDA内核需要数百行代码与专家级优化，彻底证明了Triton的工程价值，开源后迅速获得全球开发者的关注。
PyTorch官方深度集成：2023年，PyTorch 2.0正式发布，将Triton作为TorchInductor的默认GPU代码生成后端，官方测试数据显示，基于Triton的编译优化，实现了推理2.27倍、训练1.41倍的几何平均加速，PyTorch生态的海量开发者无需额外学习，即可享受Triton的性能优化，彻底推动Triton从小众工具走向主流。
大模型核心算子全面适配：
- 2022-2023年，FlashAttention、FlashDecoding、PagedAttention等大模型核心注意力算子，均基于Triton实现了高性能开源版本，成为LLaMA、ChatGLM、DeepSeek等几乎所有开源大模型的标配；
- MoE混合专家模型的分组GEMM、路由算子，基于Triton实现了极致性能优化，支撑了万亿参数MoE模型的高效训练，成为DeepSpeed、Megatron-LM等大模型训练框架的核心算子底座；
- Stable Diffusion等生成式模型的UNet、采样算子，大量基于Triton优化，推理速度提升2-4倍，成为AIGC产业的核心优化工具。
编译器与硬件适配升级：2022-2023年，Triton完成多次版本迭代，新增FP8/INT4低精度计算、动态形状支持、自动调优引擎，编译器优化深度大幅提升；初步支持AMD GPU、Intel CPU/GPU，开启了跨硬件适配的进程，打破了NVIDIA的硬件绑定。

国产技术全面突破

国内大模型厂商（智谱AI、深度求索、百川智能）全面基于Triton开发大模型核心算子，实现了训练与推理的极致性能优化；
华为昇腾、海光DCU、天数智芯、沐曦等国产芯片厂商，完成了Triton的深度适配，通过MLIR后端实现了国产硬件的原生支持，打破了CUDA对国产芯片的生态壁垒；
国内团队在顶会发表多篇基于Triton的算子优化论文，在长上下文注意力、稀疏计算、端侧算子优化等领域实现了核心创新，成为Triton全球生态的重要贡献者；
字节跳动、阿里、腾讯等企业基于Triton构建了内部的算子优化平台，支撑了搜索、推荐、广告等核心业务的性能优化。

产业格局与核心痛点

产业格局：Triton成为大模型时代算子开发的事实标准，全球超过80%的开源大模型核心算子基于Triton实现；PyTorch官方深度集成，开发者规模爆发式增长；CUDA仍在底层硬件生态占据优势，但Triton已经成为上层算子开发的首选框架；形成了“OpenAI主导核心开发，全球开发者共建生态”的格局。
核心痛点：对非NVIDIA硬件的支持仍不完善，跨硬件适配能力仍需提升；复杂控制流、不规则计算的编译器优化仍不如手工CUDA；端侧设备的适配仍处于早期阶段，无法满足端侧AI的低功耗需求；国产芯片的适配深度与性能仍有提升空间。

第四阶段：2024-2025 普及成熟期——跨硬件标准确立，全场景普惠落地

产业背景

2024-2025年，大模型产业进入规模化落地阶段，端侧AI、具身智能、自动驾驶、工业互联网全面爆发，AI算力从云端走向云-边-端全场景，异构算力崛起，国产芯片规模化落地。Triton凭借“一次编写，多硬件运行”的跨平台优势，成为跨异构算力的算子开发标准，从大模型专属工具，进化为通用AI基础设施，实现了全场景、全行业的普惠化落地。

核心技术演进

3.x版本架构全面升级：2024-2025年，Triton 3.0-3.4版本先后发布，核心架构完成全面升级：
- 原生支持NVIDIA Blackwell、AMD RDNA3、ARM架构等全类型硬件，新增SM90 Tensor Core、FP4/NVFP4超低精度计算的原生支持，性能较2.0版本再提升2-3倍；
- 内置FlashAttention、分组GEMM、稀疏计算等大模型核心算子模板，开发者无需从零开发，即可实现极致性能优化；
- 新增自动算子生成能力，结合大语言模型实现“自然语言描述→Triton内核自动生成”，进一步降低开发门槛；
- 完善端侧设备适配，支持ARM、RISC-V架构的端侧NPU，实现了云-边-端统一的算子开发范式。
跨硬件生态全面成熟：Triton成为跨异构算力的算子开发事实标准，通过统一的前端语法与MLIR中间层，实现了“一次编写，多硬件运行”，彻底打破了CUDA的硬件绑定，AMD、Intel、国产芯片厂商均将Triton作为核心的算子开发框架，生态覆盖全球主流AI芯片。
全场景规模化落地：
- 云端大模型训练与推理：万亿参数大模型100%基于Triton实现核心算子优化，训练吞吐量提升30%以上，推理延迟降低50%；
- 自动驾驶：小鹏、华为、比亚迪等车企基于Triton构建了自动驾驶感知与决策模型的算子优化体系，实现了车规级芯片的实时推理，延迟降低至10ms以内；
- 工业AI：3C、新能源、半导体等行业的工业质检、数字孪生模型，全面基于Triton实现算子优化，推理速度提升2-5倍，实现了产线实时部署；
- 端侧AI：手机、智能家居、可穿戴设备的端侧大模型，基于Triton实现了端侧算子优化，功耗降低40%，实现了端侧10B级大模型的实时运行。

国产技术全球领跑

国内团队成为Triton核心生态的重要贡献者，在国产芯片适配、端侧优化、分布式算子扩展等领域实现了全球领先的创新，多名国内开发者进入Triton核心开发团队；
华为昇腾、海光DCU等国产芯片的Triton适配性能达到NVIDIA GPU的90%以上，实现了国产算力的算子生态自主可控，打破了CUDA的生态垄断；
国内厂商基于Triton构建了全球领先的自动驾驶、工业AI算子优化体系，在量产车、工业产线实现了规模化落地，落地规模与场景丰富度全球领先；
国内主导了Triton在联邦学习、隐私计算、工业实时控制等垂直领域的生态扩展，制定了多项基于Triton的行业标准。

产业格局

全球格局形成“Triton为核心，多硬件生态共建”的稳态：Triton成为GPU算子开发的事实标准，全球开发者规模突破百万，在AI算子开发领域的市场占有率超过80%；NVIDIA CUDA仍在底层驱动层占据优势，但上层算子开发生态已被Triton主导；中国成为Triton最大的应用市场与生态共建者，在国产适配、场景落地领域实现全球领跑。

三、Triton算子十年核心维度演进对比表

核心维度	2015-2017年（启蒙萌芽期）	2018-2020年（范式确立期）	2021-2023年（爆发跃升期）	2024-2025年（普及成熟期）	十年核心质变
核心范式	CUDA线程级手工编程，专家专属能力	Block级编程模型确立，编译器自动底层优化	Python DSL+PyTorch深度集成，大模型算子标配	跨硬件统一算子开发标准，全场景普惠落地	从专家手工调优，到低门槛自动化编译的范式革命
开发门槛	需资深CUDA专家，数百行代码实现核心算子，开发周期数周	Python DSL前端，数十行代码实现核心算子，开发周期数天	20+行代码实现对标cuBLAS的性能，开发周期数小时	自然语言自动生成算子，零代码快速适配	开发效率提升超1000倍，从专家专属到普通开发者可及
性能表现	手工CUDA为性能天花板	核心算子性能对标手工CUDA	大模型核心算子性能超越手工CUDA，成为性能标杆	全场景性能逼近/超越手工优化，编译器自动优化能力成熟	从性能天花板远低于CUDA，到成为算子性能新标杆
硬件支持	仅支持NVIDIA GPU，CUDA强绑定	仅支持NVIDIA多代GPU架构	初步支持AMD、Intel GPU，跨硬件能力起步	原生支持NVIDIA/AMD/Intel/国产芯片/ARM/RISC-V全类型硬件	从NVIDIA专属，到跨异构算力的统一标准
框架集成	无主流框架集成，仅独立工具	初步支持PyTorch/TensorFlow自定义算子	PyTorch 2.0默认后端，全主流框架深度集成	所有主流AI框架原生支持，成为标准算子开发接口	从独立工具，到AI框架的核心基础设施
生态规模	无独立生态，完全依附CUDA	开源前内部使用，学术圈初步关注	开源后爆发式增长，全球开发者数十万，大模型生态全覆盖	全球开发者超百万，云-边-端全场景生态成熟	从空白生态，到全球第二大GPU开发生态
国产化水平	0%，完全空白，纯技术跟随	>10%，初步技术跟踪，无落地应用	>50%，国产芯片初步适配，大模型场景规模化应用	>90%，全栈适配国产算力，核心创新全球领跑	从完全空白，到全球生态核心共建者
落地场景	仅头部企业实验室使用，无规模化落地	少数科技巨头内部算法优化，无行业落地	云端大模型训练与推理、AIGC场景规模化落地	云-边-端全场景覆盖，自动驾驶、工业、端侧AI全行业普及	从实验室原型，到全行业普惠化基础设施

四、十年演进的五大核心本质转变

1. 开发范式：从线程级手工调优，到Block级自动化编译的范式革命

十年间，Triton彻底重构了GPU算子开发的底层范式：从CUDA的线程级编程，要求开发者手工管理每一个线程的调度、内存、同步，升级为Block级抽象，开发者仅需关注核心计算逻辑，所有底层硬件细节由编译器自动优化。这一转变将算子开发的门槛降低了1000倍，开发周期从数周缩短至数小时，让高性能算子开发从少数专家的专属能力，变成了普通AI开发者可及的普惠技术。

2. 生态格局：从CUDA一家垄断，到跨硬件开放生态的全面崛起

十年间，Triton彻底打破了NVIDIA CUDA对GPU算子开发的长期垄断：从CUDA完全绑定NVIDIA硬件，开发者无法跨平台迁移，到Triton通过统一的前端语法与MLIR中间层，实现了“一次编写，多硬件运行”，成为AMD、Intel、国产芯片等所有异构算力的统一算子开发标准。它打破了NVIDIA的硬件生态壁垒，推动AI算力从单厂商垄断走向多厂商开放竞争的新格局。

3. 产业价值：从算法迭代的瓶颈，到大模型爆发的核心推手

十年间，Triton从无到有，成为大模型时代爆发的核心底层推手：Transformer架构带来的全新算子需求，原本需要CUDA专家数周的开发优化，无法匹配大模型算法的快速迭代；而Triton让算法工程师可以自主开发高性能算子，开发周期缩短至数小时，极大加速了FlashAttention、MoE、PagedAttention等核心技术的迭代，直接推动了大模型训练与推理成本的指数级下降，成为大模型产业爆发的核心底层基础设施。

4. 技术本质：从单一内核开发工具，到通用AI编译基础设施

十年间，Triton完成了从工具到基础设施的本质跨越：从最初的矩阵乘法、卷积等简单算子的开发工具，升级为PyTorch的默认编译后端，再到跨云-边-端、跨异构硬件的通用AI编译基础设施。它从服务于单一算子优化，变成了支撑AI模型训练、推理、部署全生命周期的核心底座，从深度学习的“辅助工具”，变成了AI产业的“核心基础设施”。

5. 国产化进程：从完全空白，到生态核心共建者与全球领跑者

十年间，中国在Triton生态中的角色完成了彻底逆转：从最初的完全空白、技术跟随，到后续的场景应用、国产适配，最终成为全球生态的核心共建者与部分领域的领跑者。国内团队不仅实现了国产芯片的全栈适配，打破了CUDA的生态垄断，实现了AI算力的自主可控，更在自动驾驶、工业AI、端侧优化等领域实现了全球领先的落地创新，从技术使用者，变成了全球AI底层技术的规则共建者。

五、现存核心挑战

复杂场景的编译器优化深度仍有不足
尽管Triton的自动优化能力已经非常成熟，但在不规则计算、复杂控制流、稀疏计算等场景中，编译器的自动优化效果仍不如手工CUDA内核，需要开发者手动调优；动态形状、变长序列的优化能力仍有提升空间，无法完全匹配大模型长上下文的需求。
跨硬件生态的标准化仍需完善
尽管Triton已经实现了多硬件支持，但不同硬件厂商的后端实现差异较大，算子的跨平台迁移仍需少量适配工作，无法完全实现“一次编写，到处运行”；硬件厂商的后端优化深度参差不齐，部分国产芯片的性能仍与NVIDIA有较大差距。
端侧设备的适配与低功耗优化仍需突破
Triton在云端GPU的优化已经非常成熟，但在端侧低功耗设备的适配仍处于早期阶段，对ARM、RISC-V架构的端侧NPU的支持仍不完善，低功耗优化能力不足，无法完全满足端侧AI的严苛功耗与延迟要求。
自动算子生成的能力仍处于早期阶段
尽管已经实现了基于大语言模型的Triton算子自动生成，但生成的算子性能与手工开发仍有差距，复杂算子的生成成功率较低，无法完全替代开发者的手动开发，智能化、自动化能力仍需大幅提升。
与底层硬件的深度协同仍有空间
Triton的编译器优化仍以通用架构为主，对不同硬件的定制化特性的利用仍不够充分，无法完全释放硬件的极致性能；与硬件架构的深度协同设计仍处于早期阶段，未来需要与芯片设计深度融合，实现软硬件协同优化。

六、未来发展趋势（2025-2030）

1. 与AI大模型深度融合，实现“意图直写”的全自动算子生成

2030年前，Triton将与大语言模型深度原生融合，实现“自然语言描述需求→算子自动生成→自动性能调优→自动跨硬件适配”的全流程自动化，开发者无需编写任何代码，即可生成极致性能的GPU算子，彻底消除GPU算子开发的门槛，实现“意图直写”的编程范式革命。

2. 成为异构算力时代的统一AI计算标准

2030年前，Triton将成为全球异构算力时代的统一AI计算标准，实现对所有主流AI芯片（GPU、NPU、TPU、DSA）的原生支持，彻底打破不同硬件厂商的生态壁垒，实现“一次编写，全硬件运行”，成为AI时代的“通用计算语言”，终结CUDA的长期垄断。

3. 软硬件协同设计，成为芯片架构定义的核心驱动

2030年前，Triton将从适配现有硬件架构，走向驱动芯片架构的设计与创新，芯片厂商将基于Triton的编程模型与编译器优化逻辑，定义新一代AI芯片的指令集与硬件架构，实现软硬件的深度协同设计，彻底释放AI算力的潜力，带来性能与能效的指数级提升。

4. 云-边-端全场景统一，成为端侧AI的核心基础设施

2030年前，Triton将完成云-边-端全场景的全覆盖，实现云端训练、边缘部署、端侧推理的统一算子开发范式，针对端侧低功耗设备的优化全面成熟，成为手机、汽车、智能家居、工业设备等所有端侧AI设备的标准算子开发框架，实现全场景AI算力的统一调度与优化。

5. 国产化生态全面成熟，中国成为全球创新中心

2030年前，国产芯片将实现Triton的全栈深度适配，性能与NVIDIA GPU持平，实现AI算力的完全自主可控；国内团队将主导Triton的核心架构创新与工业场景落地，中国成为全球Triton生态的创新中心与最大应用市场，主导制定异构AI计算的国际标准，实现AI底层技术的完全自主可控。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

CRMEB + Trae AI：为什么CRMEB特别适合AI辅助开发？

2048 AI社区

云智慧 Castrel AI 如何构建一个故障排查智能体

2048 AI社区

ZeRO：大模型训练的内存优化革命

英文名词中文释义简要说明ZeRO-DP模型状态零冗余优化对参数、梯度、优化器状态进行分区，大幅降低模型状态内存ZeRO-R残余状态内存优化优化激活、临时缓冲区、内存碎片PosP_{os}Pos优化器状态分区ZeRO-DP 阶段1，只存 1/Nd 优化器状态，内存降4 倍PosgP_{os+g}Posg梯度分区ZeRO-DP 阶段2，梯度也分区，内存降8 倍PosgpP_{os+g+p}Posg