基于昇腾的性能通用定位指南-01概述

更新时间：2025/09/17随着人工智能模型规模的不断扩大及应用场景的日益复杂，在昇腾AI计算平台上进行训练和部署时，面临着Host-Device协同效率不高、重要算子性能下滑、通信延迟增大、模型下发效率低等诸多挑战。因此，深度学习系统的性能瓶颈也从计算能力提升，转变为对硬件平台、软件栈、通信机制以及模型结构之间的协同效率进行全面优化的需求。在此背景下，迫切需要构建一套系统性的性能分析与优化框架

weixin_45191321

230人浏览 · 2025-09-20 09:52:43

weixin_45191321 · 2025-09-20 09:52:43 发布

概述

更新时间：2025/09/17

随着人工智能模型规模的不断扩大及应用场景的日益复杂，在昇腾AI计算平台上进行训练和部署时，面临着Host-Device协同效率不高、重要算子性能下滑、通信延迟增大、模型下发效率低等诸多挑战。因此，深度学习系统的性能瓶颈也从计算能力提升，转变为对硬件平台、软件栈、通信机制以及模型结构之间的协同效率进行全面优化的需求。

在此背景下，迫切需要构建一套系统性的性能分析与优化框架，涵盖性能数据采集、算子层面优化、调度策略调整、通信机制改善以及模型编译下发等多个环节。性能优化不仅成为提高昇腾产品竞争力和用户满意度的重要途径，也是推动昇腾软硬件平台不断进步的关键引擎。通过对训练与推理任务进行全流程、系统化的性能优化，可显著提升各种典型模型的执行效率，加快开发和迭代周期。

性能优化原则

性能优化原则需遵循算子优先、昇腾亲和优化策略、模型设计策略，具体请参见表1。

表1 性能优化原则

原则名称	说明
算子优先	算子能力是基础，唯有优秀的算子能力才能保障单机和集群性能的卓越表现。
昇腾亲和优化策略	昇腾AI处理器基于高度并行的架构设计，在指令级并行和数据搬运效率方面进行了深度优化。例如，在数据访问单元设计上，昇腾的Cache Line大小达到512字节，显著高于业界常见的32字节水平，能够有效提升大粒度数据传输的带宽利用率，降低访存延迟。因此，在编程与算子优化过程中，建议尽可能对齐硬件特性，提升数据局部性，使每次内存操作处理更大规模的数据，从而充分发挥高带宽、大吞吐的优势。
模型设计策略	模型应尽可能多地利用矩阵运算，并充分复用AI Core（矩阵计算单元），以提升整体效率。

性能优化方向

性能优化目标可以从计算、通信、下发以及服务化调度四个维度进行优化，具体请参见表2。

表2 性能优化方向

维度	优化方向
计算	算子性能符合预期 (矩阵乘计算利用率，MTE搬运流水利用率等)。
	计算集中于AI Core，充分利用Cube资源。
	消除AI CPU算子和非亲和算子及算法逻辑优化。
	充分利用融合算子。
通信	通信带宽符合预期，未发生通信重传等问题。
	各卡通信时间相对均衡，无明显快慢卡问题。
	通算并行，计算尽可能掩盖通信时间。
下发	Free占比尽可能小。
	计算掩盖调度时间。
	IO/内存问题消除。
服务化推理	模型推理部分时延逼近纯模型性能。
	最小化Batch间CPU任务占比。
	调优调度参数和batch上限在时延约束下显存占满最大化吞吐。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

产品经理入门指南：从互联网原理到大模型思维的全面解析

2048 AI社区

在专家主导的行业中，AI 的真正价值是“知识压缩”而非“智能替代”

2048 AI社区

企业AI治理中的AIGovernanceRoles：AI应用架构师的职责与协作

跨部门协同困难：业务团队追求创新速度，合规团队强调风险控制，技术团队关注性能，三者目标冲突；技术与治理脱节：传统架构师缺乏治理知识，导致AI系统难以满足合规要求（如可解释性）；伦理与业务平衡：如何在“公平性”（如避免算法偏见）与“商业目标”（如提高推荐转化率）之间找到平衡点？早介入：在AI项目启动时就参与治理设计，避免“事后补课”；用工具：借助成熟的治理工具（如AI Fairness 360、SH