基于昇腾的性能通用定位指南-01概述
更新时间:2025/09/17随着人工智能模型规模的不断扩大及应用场景的日益复杂,在昇腾AI计算平台上进行训练和部署时,面临着Host-Device协同效率不高、重要算子性能下滑、通信延迟增大、模型下发效率低等诸多挑战。因此,深度学习系统的性能瓶颈也从计算能力提升,转变为对硬件平台、软件栈、通信机制以及模型结构之间的协同效率进行全面优化的需求。在此背景下,迫切需要构建一套系统性的性能分析与优化框架
概述
更新时间:2025/09/17
随着人工智能模型规模的不断扩大及应用场景的日益复杂,在昇腾AI计算平台上进行训练和部署时,面临着Host-Device协同效率不高、重要算子性能下滑、通信延迟增大、模型下发效率低等诸多挑战。因此,深度学习系统的性能瓶颈也从计算能力提升,转变为对硬件平台、软件栈、通信机制以及模型结构之间的协同效率进行全面优化的需求。
在此背景下,迫切需要构建一套系统性的性能分析与优化框架,涵盖性能数据采集、算子层面优化、调度策略调整、通信机制改善以及模型编译下发等多个环节。性能优化不仅成为提高昇腾产品竞争力和用户满意度的重要途径,也是推动昇腾软硬件平台不断进步的关键引擎。通过对训练与推理任务进行全流程、系统化的性能优化,可显著提升各种典型模型的执行效率,加快开发和迭代周期。
性能优化原则
性能优化原则需遵循算子优先、昇腾亲和优化策略、模型设计策略,具体请参见表1。
原则名称 |
说明 |
---|---|
算子优先 |
算子能力是基础,唯有优秀的算子能力才能保障单机和集群性能的卓越表现。 |
昇腾亲和优化策略 |
昇腾AI处理器基于高度并行的架构设计,在指令级并行和数据搬运效率方面进行了深度优化。例如,在数据访问单元设计上,昇腾的Cache Line大小达到512字节,显著高于业界常见的32字节水平,能够有效提升大粒度数据传输的带宽利用率,降低访存延迟。因此,在编程与算子优化过程中,建议尽可能对齐硬件特性,提升数据局部性,使每次内存操作处理更大规模的数据,从而充分发挥高带宽、大吞吐的优势。 |
模型设计策略 |
模型应尽可能多地利用矩阵运算,并充分复用AI Core(矩阵计算单元),以提升整体效率。 |
性能优化方向
性能优化目标可以从计算、通信、下发以及服务化调度四个维度进行优化,具体请参见表2。
维度 |
优化方向 |
---|---|
计算 |
算子性能符合预期 (矩阵乘计算利用率,MTE搬运流水利用率等)。 |
计算集中于AI Core,充分利用Cube资源。 |
|
消除AI CPU算子和非亲和算子及算法逻辑优化。 |
|
充分利用融合算子。 |
|
通信 |
通信带宽符合预期,未发生通信重传等问题。 |
各卡通信时间相对均衡,无明显快慢卡问题。 |
|
通算并行,计算尽可能掩盖通信时间。 |
|
下发 |
Free占比尽可能小。 |
计算掩盖调度时间。 |
|
IO/内存问题消除。 |
|
服务化推理 |
模型推理部分时延逼近纯模型性能。 |
最小化Batch间CPU任务占比。 |
|
调优调度参数和batch上限在时延约束下显存占满最大化吞吐。 |
更多推荐
所有评论(0)