Triton算子十年演进
Triton算子十年演进(2015-2025)摘要 OpenAI Triton算子完成了从理论原型到行业标准的蜕变,重构了GPU编程范式。2015-2017年萌芽期,哈佛团队提出分块编译理论;2018-2020年确立Block级编程模型,Python DSL降低开发门槛;2021-2023年爆发期,成为PyTorch 2.0默认GPU后端,支撑FlashAttention等大模型核心算子;2024
Triton算子十年演进(2015-2025)
2015-2025年,是OpenAI Triton算子完成从理论原型到打破CUDA垄断、成为大模型时代GPU编程事实标准的黄金十年。它以“Python级语法、专家级性能”为核心理念,彻底重构了GPU算子开发的底层逻辑,将原本只有CUDA专家才能完成的高性能内核开发,变成了普通AI开发者可及的普惠技术,从学术原型成长为万亿参数大模型训练、端侧AI部署、跨硬件适配的核心基础设施。
注:本文聚焦OpenAI Triton(类Python的GPU内核编程DSL与编译器),而非NVIDIA Triton Inference Server推理部署框架,二者是完全独立的两个项目。
Triton算子的核心本质,是OpenAI主导开发的开源领域特定语言(DSL)与即时编译器,采用Block级编程模型,通过Pythonic的语法实现GPU内核开发,由编译器自动完成内存调度、线程同步、硬件指令优化等底层工作,无需开发者手工管理CUDA线程、共享内存与寄存器。它解决了传统CUDA编程门槛高、开发周期长、跨硬件适配难的核心痛点,25行代码即可实现媲美手工CUDA的矩阵乘法性能,是PyTorch 2.0+ torch.compile的默认GPU代码生成后端。
这十年,Triton算子的演进与Transformer革命、大模型爆发、异构算力崛起深度绑定,完成了**「CUDA垄断下的理论启蒙期、Block级编程范式确立期、大模型时代爆发跃升期、跨硬件全场景普及成熟期」**四次核心范式跃迁,算子开发效率提升超1000倍,性能逼近甚至超越手工优化的CUDA内核。
一、十年演进总纲与四大里程碑
Triton算子的十年演进,始终围绕易用性、性能、跨硬件适配、生态完整性四大核心主线,核心突破始终围绕“如何打破CUDA的技术垄断,让高性能GPU算子开发低门槛、跨平台、普惠化”,整体可划分为四大里程碑阶段,与AI产业的十年发展完全对齐:
- 2015-2017 启蒙萌芽期:CUDA完全垄断GPU算子开发,门槛极高,仅少数专家可完成手工内核优化;Triton的核心理论原型诞生,哈佛团队提出分块神经网络编译思路,为后续发展奠定基础。
- 2018-2020 范式确立期:Triton项目正式启动,2019年首次亮相学术圈,确立Block级编程模型;2020年完成Python DSL前端重构与MLIR编译器升级,彻底解决了CUDA编程的核心痛点,从理论原型走向可落地的工程化工具。
- 2021-2023 爆发跃升期:Triton 1.0正式开源,性能对标手工CUDA;2023年成为PyTorch 2.0 torch.compile的默认GPU后端,FlashAttention、MoE等大模型核心算子全面基于Triton开发,成为万亿参数大模型训练的标配工具,生态爆发式增长。
- 2024-2025 普及成熟期:Triton 3.x版本成熟,实现AMD、Intel、国产芯片等多硬件原生支持,成为跨异构算力的算子开发标准;国产算力深度适配,在自动驾驶、工业AI、端侧部署等场景实现规模化落地,从大模型专属工具进化为通用AI基础设施。
二、四大阶段详细演进详解
第一阶段:2015-2017 启蒙萌芽期——CUDA垄断时代,理论原型探索
产业背景
2015-2017年,深度学习进入第一次爆发期,AlexNet、VGG、ResNet等CNN架构先后突破,GPU成为深度学习的核心算力底座,但GPU算子开发完全被NVIDIA CUDA垄断。CUDA编程需要开发者手工管理线程调度、共享内存、寄存器分配、线程同步等底层硬件细节,门槛极高,只有少数资深专家能写出媲美cuBLAS、cuDNN的高性能内核,普通AI开发者完全无法触及,算子优化成为深度学习发展的核心瓶颈。
这一阶段,行业的算子优化完全依赖NVIDIA官方库与少数专家的手工CUDA开发,无通用、低门槛的替代方案,为Triton的诞生提供了核心产业背景。
核心技术演进
- 行业现状:CUDA是GPU算子开发的唯一主流方案,核心痛点包括:开发门槛极高,需要深厚的硬件知识;开发周期长,一个高性能内核需要数周优化;跨硬件适配难,不同架构GPU需要重新调优;编译器自动优化能力弱,大量底层细节需要手工控制。
- 理论原型突破:2017年,哈佛大学Philippe Tillet团队在MAPL workshop发表论文,提出分块神经网络编译(Tiled Neural Network Compilation) 思路,核心是通过分块抽象隐藏底层硬件细节,由编译器自动完成内存调度与优化,这是Triton算子的核心理论原型,打破了“只有手工CUDA才能实现高性能”的固有认知。
- 核心局限:仅为理论原型,无完整的工程化实现;仅支持简单的矩阵运算,无法适配复杂的神经网络算子;无Python前端,开发者使用门槛仍较高;未实现与主流深度学习框架的集成。
国产技术与落地状态
国内AI产业仍处于跟随阶段,算子优化完全依赖NVIDIA官方库与开源CUDA内核;仅少数头部企业与高校团队掌握CUDA内核开发能力,无自主的算子开发框架与编译技术;对Triton的理论原型无相关研究,处于完全的技术空白与跟随状态。
产业格局与核心痛点
- 产业格局:NVIDIA完全垄断GPU算子开发生态,CUDA+cuBLAS/cuDNN成为事实标准;99%的AI开发者无法自主开发高性能算子,完全依赖官方库与开源实现;无任何可替代CUDA的低门槛方案。
- 核心痛点:CUDA编程门槛极高,算子优化成为深度学习发展的核心瓶颈;算子开发周期长,无法匹配深度学习算法的快速迭代;NVIDIA硬件绑定严重,跨硬件适配完全无法实现;核心技术完全被海外垄断,国内无自主可控能力。
第二阶段:2018-2020 范式确立期——Triton正式诞生,Block级编程范式确立
产业背景
2017年Transformer架构正式发布,其全局注意力机制带来了全新的算子需求,传统CUDA内核开发的长周期、高门槛问题进一步凸显,行业对低门槛、高性能的算子开发框架的需求达到顶峰。2018年,Philippe Tillet加入OpenAI,正式启动Triton项目,将理论原型升级为完整的工程化框架,彻底重构了GPU算子开发的范式。
核心技术演进
- 核心范式确立:2019年,Tillet团队在MAPL workshop发布首篇Triton正式论文《Triton: An Intermediate Language and Compiler for Tiled Neural Network Computations》,正式确立了Block级编程模型的核心范式——开发者以Block为单位编写逻辑,无需关注单线程调度,由编译器自动完成内存合并、共享内存管理、线程同步、硬件指令优化等底层工作,彻底颠覆了CUDA的线程级编程模式。
- 工程化关键突破:
- 2020年,Triton完成Python DSL前端重构,开发者可通过类Python/Numpy的语法编写GPU内核,彻底解决了CUDA的多语言混合编程痛点,开发周期从数周缩短至数小时;
- 2020年,Triton完成基于MLIR的编译器重构,实现了更灵活的中间表示与硬件适配,英伟达深度参与适配,原生支持Ampere架构GPU与Tensor Core加速;
- 首次实现了矩阵乘法、卷积、softmax等核心神经网络算子的高性能实现,性能与手工优化的CUDA内核持平,部分场景甚至实现超越。
- 核心能力升级:从理论原型升级为完整的工程化框架;从仅支持简单运算,升级为适配全类型神经网络算子;从无前端接口,升级为Python原生DSL,开发门槛降低90%以上;从单硬件适配,升级为支持多代NVIDIA GPU架构,性能对标手工CUDA。
国产技术突破与落地
国内头部企业与高校开始关注Triton项目,少数团队开始尝试基于Triton开发自定义算子;华为、寒武纪等国产芯片厂商开始探索Triton的适配可能性;但核心仍以技术跟踪与初步尝试为主,无核心贡献与工程化落地,整体处于跟随状态。
产业格局与核心痛点
- 产业格局:CUDA仍占据绝对主流,但Triton的出现打破了CUDA的垄断格局,为开发者提供了低门槛的替代方案;OpenAI主导核心开发,英伟达深度参与,学术圈开始关注Triton的潜力;算子开发从“专家专属”走向“开发者可及”。
- 核心痛点:Triton仍处于早期阶段,生态不完善,未与主流深度学习框架集成;对复杂控制流、动态形状的支持不足;仅支持NVIDIA GPU,跨硬件能力有限;编译器优化深度仍不如手工CUDA,部分场景性能有差距。
第三阶段:2021-2023 爆发跃升期——开源生态爆发,大模型时代标配
产业背景
2022年底ChatGPT发布,彻底引爆了全球大模型产业,Transformer架构成为绝对主流,FlashAttention、MoE、分组GEMM等大模型核心算子的优化需求爆发式增长。传统CUDA开发无法匹配大模型算法的快速迭代,而Triton凭借低门槛、高性能的核心优势,成为大模型算子开发的首选工具,同时被PyTorch官方深度集成,完成了从小众工具到行业事实标准的跨越。
核心技术演进
- 开源与生态里程碑:2021年,Triton 1.0正式开源,官方演示了25行Python代码实现的FP16矩阵乘法内核,性能完全对标NVIDIA cuBLAS,而同等性能的CUDA内核需要数百行代码与专家级优化,彻底证明了Triton的工程价值,开源后迅速获得全球开发者的关注。
- PyTorch官方深度集成:2023年,PyTorch 2.0正式发布,将Triton作为TorchInductor的默认GPU代码生成后端,官方测试数据显示,基于Triton的编译优化,实现了推理2.27倍、训练1.41倍的几何平均加速,PyTorch生态的海量开发者无需额外学习,即可享受Triton的性能优化,彻底推动Triton从小众工具走向主流。
- 大模型核心算子全面适配:
- 2022-2023年,FlashAttention、FlashDecoding、PagedAttention等大模型核心注意力算子,均基于Triton实现了高性能开源版本,成为LLaMA、ChatGLM、DeepSeek等几乎所有开源大模型的标配;
- MoE混合专家模型的分组GEMM、路由算子,基于Triton实现了极致性能优化,支撑了万亿参数MoE模型的高效训练,成为DeepSpeed、Megatron-LM等大模型训练框架的核心算子底座;
- Stable Diffusion等生成式模型的UNet、采样算子,大量基于Triton优化,推理速度提升2-4倍,成为AIGC产业的核心优化工具。
- 编译器与硬件适配升级:2022-2023年,Triton完成多次版本迭代,新增FP8/INT4低精度计算、动态形状支持、自动调优引擎,编译器优化深度大幅提升;初步支持AMD GPU、Intel CPU/GPU,开启了跨硬件适配的进程,打破了NVIDIA的硬件绑定。
国产技术全面突破
- 国内大模型厂商(智谱AI、深度求索、百川智能)全面基于Triton开发大模型核心算子,实现了训练与推理的极致性能优化;
- 华为昇腾、海光DCU、天数智芯、沐曦等国产芯片厂商,完成了Triton的深度适配,通过MLIR后端实现了国产硬件的原生支持,打破了CUDA对国产芯片的生态壁垒;
- 国内团队在顶会发表多篇基于Triton的算子优化论文,在长上下文注意力、稀疏计算、端侧算子优化等领域实现了核心创新,成为Triton全球生态的重要贡献者;
- 字节跳动、阿里、腾讯等企业基于Triton构建了内部的算子优化平台,支撑了搜索、推荐、广告等核心业务的性能优化。
产业格局与核心痛点
- 产业格局:Triton成为大模型时代算子开发的事实标准,全球超过80%的开源大模型核心算子基于Triton实现;PyTorch官方深度集成,开发者规模爆发式增长;CUDA仍在底层硬件生态占据优势,但Triton已经成为上层算子开发的首选框架;形成了“OpenAI主导核心开发,全球开发者共建生态”的格局。
- 核心痛点:对非NVIDIA硬件的支持仍不完善,跨硬件适配能力仍需提升;复杂控制流、不规则计算的编译器优化仍不如手工CUDA;端侧设备的适配仍处于早期阶段,无法满足端侧AI的低功耗需求;国产芯片的适配深度与性能仍有提升空间。
第四阶段:2024-2025 普及成熟期——跨硬件标准确立,全场景普惠落地
产业背景
2024-2025年,大模型产业进入规模化落地阶段,端侧AI、具身智能、自动驾驶、工业互联网全面爆发,AI算力从云端走向云-边-端全场景,异构算力崛起,国产芯片规模化落地。Triton凭借“一次编写,多硬件运行”的跨平台优势,成为跨异构算力的算子开发标准,从大模型专属工具,进化为通用AI基础设施,实现了全场景、全行业的普惠化落地。
核心技术演进
- 3.x版本架构全面升级:2024-2025年,Triton 3.0-3.4版本先后发布,核心架构完成全面升级:
- 原生支持NVIDIA Blackwell、AMD RDNA3、ARM架构等全类型硬件,新增SM90 Tensor Core、FP4/NVFP4超低精度计算的原生支持,性能较2.0版本再提升2-3倍;
- 内置FlashAttention、分组GEMM、稀疏计算等大模型核心算子模板,开发者无需从零开发,即可实现极致性能优化;
- 新增自动算子生成能力,结合大语言模型实现“自然语言描述→Triton内核自动生成”,进一步降低开发门槛;
- 完善端侧设备适配,支持ARM、RISC-V架构的端侧NPU,实现了云-边-端统一的算子开发范式。
- 跨硬件生态全面成熟:Triton成为跨异构算力的算子开发事实标准,通过统一的前端语法与MLIR中间层,实现了“一次编写,多硬件运行”,彻底打破了CUDA的硬件绑定,AMD、Intel、国产芯片厂商均将Triton作为核心的算子开发框架,生态覆盖全球主流AI芯片。
- 全场景规模化落地:
- 云端大模型训练与推理:万亿参数大模型100%基于Triton实现核心算子优化,训练吞吐量提升30%以上,推理延迟降低50%;
- 自动驾驶:小鹏、华为、比亚迪等车企基于Triton构建了自动驾驶感知与决策模型的算子优化体系,实现了车规级芯片的实时推理,延迟降低至10ms以内;
- 工业AI:3C、新能源、半导体等行业的工业质检、数字孪生模型,全面基于Triton实现算子优化,推理速度提升2-5倍,实现了产线实时部署;
- 端侧AI:手机、智能家居、可穿戴设备的端侧大模型,基于Triton实现了端侧算子优化,功耗降低40%,实现了端侧10B级大模型的实时运行。
国产技术全球领跑
- 国内团队成为Triton核心生态的重要贡献者,在国产芯片适配、端侧优化、分布式算子扩展等领域实现了全球领先的创新,多名国内开发者进入Triton核心开发团队;
- 华为昇腾、海光DCU等国产芯片的Triton适配性能达到NVIDIA GPU的90%以上,实现了国产算力的算子生态自主可控,打破了CUDA的生态垄断;
- 国内厂商基于Triton构建了全球领先的自动驾驶、工业AI算子优化体系,在量产车、工业产线实现了规模化落地,落地规模与场景丰富度全球领先;
- 国内主导了Triton在联邦学习、隐私计算、工业实时控制等垂直领域的生态扩展,制定了多项基于Triton的行业标准。
产业格局
全球格局形成“Triton为核心,多硬件生态共建”的稳态:Triton成为GPU算子开发的事实标准,全球开发者规模突破百万,在AI算子开发领域的市场占有率超过80%;NVIDIA CUDA仍在底层驱动层占据优势,但上层算子开发生态已被Triton主导;中国成为Triton最大的应用市场与生态共建者,在国产适配、场景落地领域实现全球领跑。
三、Triton算子十年核心维度演进对比表
| 核心维度 | 2015-2017年(启蒙萌芽期) | 2018-2020年(范式确立期) | 2021-2023年(爆发跃升期) | 2024-2025年(普及成熟期) | 十年核心质变 |
|---|---|---|---|---|---|
| 核心范式 | CUDA线程级手工编程,专家专属能力 | Block级编程模型确立,编译器自动底层优化 | Python DSL+PyTorch深度集成,大模型算子标配 | 跨硬件统一算子开发标准,全场景普惠落地 | 从专家手工调优,到低门槛自动化编译的范式革命 |
| 开发门槛 | 需资深CUDA专家,数百行代码实现核心算子,开发周期数周 | Python DSL前端,数十行代码实现核心算子,开发周期数天 | 20+行代码实现对标cuBLAS的性能,开发周期数小时 | 自然语言自动生成算子,零代码快速适配 | 开发效率提升超1000倍,从专家专属到普通开发者可及 |
| 性能表现 | 手工CUDA为性能天花板 | 核心算子性能对标手工CUDA | 大模型核心算子性能超越手工CUDA,成为性能标杆 | 全场景性能逼近/超越手工优化,编译器自动优化能力成熟 | 从性能天花板远低于CUDA,到成为算子性能新标杆 |
| 硬件支持 | 仅支持NVIDIA GPU,CUDA强绑定 | 仅支持NVIDIA多代GPU架构 | 初步支持AMD、Intel GPU,跨硬件能力起步 | 原生支持NVIDIA/AMD/Intel/国产芯片/ARM/RISC-V全类型硬件 | 从NVIDIA专属,到跨异构算力的统一标准 |
| 框架集成 | 无主流框架集成,仅独立工具 | 初步支持PyTorch/TensorFlow自定义算子 | PyTorch 2.0默认后端,全主流框架深度集成 | 所有主流AI框架原生支持,成为标准算子开发接口 | 从独立工具,到AI框架的核心基础设施 |
| 生态规模 | 无独立生态,完全依附CUDA | 开源前内部使用,学术圈初步关注 | 开源后爆发式增长,全球开发者数十万,大模型生态全覆盖 | 全球开发者超百万,云-边-端全场景生态成熟 | 从空白生态,到全球第二大GPU开发生态 |
| 国产化水平 | 0%,完全空白,纯技术跟随 | >10%,初步技术跟踪,无落地应用 | >50%,国产芯片初步适配,大模型场景规模化应用 | >90%,全栈适配国产算力,核心创新全球领跑 | 从完全空白,到全球生态核心共建者 |
| 落地场景 | 仅头部企业实验室使用,无规模化落地 | 少数科技巨头内部算法优化,无行业落地 | 云端大模型训练与推理、AIGC场景规模化落地 | 云-边-端全场景覆盖,自动驾驶、工业、端侧AI全行业普及 | 从实验室原型,到全行业普惠化基础设施 |
四、十年演进的五大核心本质转变
1. 开发范式:从线程级手工调优,到Block级自动化编译的范式革命
十年间,Triton彻底重构了GPU算子开发的底层范式:从CUDA的线程级编程,要求开发者手工管理每一个线程的调度、内存、同步,升级为Block级抽象,开发者仅需关注核心计算逻辑,所有底层硬件细节由编译器自动优化。这一转变将算子开发的门槛降低了1000倍,开发周期从数周缩短至数小时,让高性能算子开发从少数专家的专属能力,变成了普通AI开发者可及的普惠技术。
2. 生态格局:从CUDA一家垄断,到跨硬件开放生态的全面崛起
十年间,Triton彻底打破了NVIDIA CUDA对GPU算子开发的长期垄断:从CUDA完全绑定NVIDIA硬件,开发者无法跨平台迁移,到Triton通过统一的前端语法与MLIR中间层,实现了“一次编写,多硬件运行”,成为AMD、Intel、国产芯片等所有异构算力的统一算子开发标准。它打破了NVIDIA的硬件生态壁垒,推动AI算力从单厂商垄断走向多厂商开放竞争的新格局。
3. 产业价值:从算法迭代的瓶颈,到大模型爆发的核心推手
十年间,Triton从无到有,成为大模型时代爆发的核心底层推手:Transformer架构带来的全新算子需求,原本需要CUDA专家数周的开发优化,无法匹配大模型算法的快速迭代;而Triton让算法工程师可以自主开发高性能算子,开发周期缩短至数小时,极大加速了FlashAttention、MoE、PagedAttention等核心技术的迭代,直接推动了大模型训练与推理成本的指数级下降,成为大模型产业爆发的核心底层基础设施。
4. 技术本质:从单一内核开发工具,到通用AI编译基础设施
十年间,Triton完成了从工具到基础设施的本质跨越:从最初的矩阵乘法、卷积等简单算子的开发工具,升级为PyTorch的默认编译后端,再到跨云-边-端、跨异构硬件的通用AI编译基础设施。它从服务于单一算子优化,变成了支撑AI模型训练、推理、部署全生命周期的核心底座,从深度学习的“辅助工具”,变成了AI产业的“核心基础设施”。
5. 国产化进程:从完全空白,到生态核心共建者与全球领跑者
十年间,中国在Triton生态中的角色完成了彻底逆转:从最初的完全空白、技术跟随,到后续的场景应用、国产适配,最终成为全球生态的核心共建者与部分领域的领跑者。国内团队不仅实现了国产芯片的全栈适配,打破了CUDA的生态垄断,实现了AI算力的自主可控,更在自动驾驶、工业AI、端侧优化等领域实现了全球领先的落地创新,从技术使用者,变成了全球AI底层技术的规则共建者。
五、现存核心挑战
-
复杂场景的编译器优化深度仍有不足
尽管Triton的自动优化能力已经非常成熟,但在不规则计算、复杂控制流、稀疏计算等场景中,编译器的自动优化效果仍不如手工CUDA内核,需要开发者手动调优;动态形状、变长序列的优化能力仍有提升空间,无法完全匹配大模型长上下文的需求。 -
跨硬件生态的标准化仍需完善
尽管Triton已经实现了多硬件支持,但不同硬件厂商的后端实现差异较大,算子的跨平台迁移仍需少量适配工作,无法完全实现“一次编写,到处运行”;硬件厂商的后端优化深度参差不齐,部分国产芯片的性能仍与NVIDIA有较大差距。 -
端侧设备的适配与低功耗优化仍需突破
Triton在云端GPU的优化已经非常成熟,但在端侧低功耗设备的适配仍处于早期阶段,对ARM、RISC-V架构的端侧NPU的支持仍不完善,低功耗优化能力不足,无法完全满足端侧AI的严苛功耗与延迟要求。 -
自动算子生成的能力仍处于早期阶段
尽管已经实现了基于大语言模型的Triton算子自动生成,但生成的算子性能与手工开发仍有差距,复杂算子的生成成功率较低,无法完全替代开发者的手动开发,智能化、自动化能力仍需大幅提升。 -
与底层硬件的深度协同仍有空间
Triton的编译器优化仍以通用架构为主,对不同硬件的定制化特性的利用仍不够充分,无法完全释放硬件的极致性能;与硬件架构的深度协同设计仍处于早期阶段,未来需要与芯片设计深度融合,实现软硬件协同优化。
六、未来发展趋势(2025-2030)
1. 与AI大模型深度融合,实现“意图直写”的全自动算子生成
2030年前,Triton将与大语言模型深度原生融合,实现“自然语言描述需求→算子自动生成→自动性能调优→自动跨硬件适配”的全流程自动化,开发者无需编写任何代码,即可生成极致性能的GPU算子,彻底消除GPU算子开发的门槛,实现“意图直写”的编程范式革命。
2. 成为异构算力时代的统一AI计算标准
2030年前,Triton将成为全球异构算力时代的统一AI计算标准,实现对所有主流AI芯片(GPU、NPU、TPU、DSA)的原生支持,彻底打破不同硬件厂商的生态壁垒,实现“一次编写,全硬件运行”,成为AI时代的“通用计算语言”,终结CUDA的长期垄断。
3. 软硬件协同设计,成为芯片架构定义的核心驱动
2030年前,Triton将从适配现有硬件架构,走向驱动芯片架构的设计与创新,芯片厂商将基于Triton的编程模型与编译器优化逻辑,定义新一代AI芯片的指令集与硬件架构,实现软硬件的深度协同设计,彻底释放AI算力的潜力,带来性能与能效的指数级提升。
4. 云-边-端全场景统一,成为端侧AI的核心基础设施
2030年前,Triton将完成云-边-端全场景的全覆盖,实现云端训练、边缘部署、端侧推理的统一算子开发范式,针对端侧低功耗设备的优化全面成熟,成为手机、汽车、智能家居、工业设备等所有端侧AI设备的标准算子开发框架,实现全场景AI算力的统一调度与优化。
5. 国产化生态全面成熟,中国成为全球创新中心
2030年前,国产芯片将实现Triton的全栈深度适配,性能与NVIDIA GPU持平,实现AI算力的完全自主可控;国内团队将主导Triton的核心架构创新与工业场景落地,中国成为全球Triton生态的创新中心与最大应用市场,主导制定异构AI计算的国际标准,实现AI底层技术的完全自主可控。
更多推荐


所有评论(0)