CUDA线程调度

不甘平凡的小鸟

1864人浏览 · 2021-09-11 22:32:31

不甘平凡的小鸟 · 2021-09-11 22:32:31 发布

1，一个GPU会有多个SM（Streaming MultiProcessor）,SM之间是并行的；

2，一个SM可以同时处理多个Block的多个wrap，也就是说，同一时刻，一个SM内，不止只有一个wrap在执行；

参考：Programming Guide :: CUDA Toolkit Documentation

3，SM处理完一个Block后，才会处理下一个Block，也就是说例如SM可以同时处理3个Block，那么这3个Block的其中一个处理完后，才会处理第四个Block。

4，一个wrap的线程会分配到32个（假设一个wrap的线程数量是32）CUDA core，也叫stream processor（sp）里执行。

编程建议：将Block个数尽量设置为SM的整数倍，可以提高设备利用率。

参考：

CUDA性能优化----warp深度解析 - 爱码网

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

OpenClaw 企业级 Agent 平台技术方案

本方案基于分层技能管理用户级记忆系统沙箱池化技术，构建了一个高并发、高隔离、可扩展的企业级 Agent 平台。要点核心思路架构模式微服务 + 多智能体联邦技能管理三级分层（领域 → 目录 → 原子技能），JuiceFS 统一存储分发记忆管理基于 MIRIX 框架，向量库 + Redis + 定期压缩归档沙箱隔离Docker + K8s，池化管理，状态转换（休眠/激活/销毁）统一存储JuiceFS