NPU下一代的架构设计,哪个架构更适合大模型部署

回顾跑深度学习神经网络到大模型的硬件架构变化

  • 一开始CV类CNN,可用CPU的向量并行写算子

-后面NPU的架构是SIMD+DSA

  • 到如今大模型,似乎都走SIMT+张量专用核

可以看到一个趋势是Nvidia的tensor core越来越像NPU的专用加速单元,tensor memory专用,DMA来搬运数据

而通用可编程模块,从SIMD到SIMT的转变原因是什么?

  • SIMD:同PC同执行同控制流,一起执行整个向量必须同步

SIMT:以warp为单位独立调度,虽然

NV warp = 32 thread

AMD wavefront = 64 thread

单warp 内,它们物理上确实像 32/64 lane的 SIMD,单SIMT执行模型的核心在于不同warp可以有不同PC,硬件快速切换指令调度来隐藏延迟

大模型部署的三大刚需

① 动态控制流

生成式Decoder = 无限if+loop

② 不规则访存

  • KV cache 索引

  • 散点/聚集

  • 稀疏访问

SIMT 靠多线程隐藏延迟

SIMD 要求对齐连续,根本扛不住。

③ 算子灵活性

下一代模型天天变架构:

  • MoE

  • 新Attention

  • 新Norm

  • 新激活

编程性也不好说谁好谁坏,毕竟dsl层出不穷,总要根据需求设计对应的dsl
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐