《打造高效算力池：HAMi 探索异构算力调度的最佳实践》— 李孟轩

随着大模型训练与推理规模不断扩大，企业对 GPU、XPU 等异构算力的调度需求变得更复杂、更多样。作为目前业内专注于异构 GPU 资源共享和调度的开源项目，HAMi 在 2.7.0 版本中完成了多项关键升级，并在 2.8.0 版本 Roadmap 中进一步规划了调度性能和 DRA 方向的演进，使 GPU 资源管理从“可用”迈向“更易用、更统一、更高性能”。在本次演讲中，HAMi 核心 mainta

guaguaRethink

169人浏览 · 2025-12-11 10:40:59

guaguaRethink · 2025-12-11 10:40:59 发布

作为一个活跃的开源项目，HAMi 由来自 15+ 国家、350+ 贡献者共同维护，已被 200+ 企业与机构在实际生产环境中采纳，具备良好的可扩展性与支持保障。

01 痛点与挑战

在大规模 GPU 生产环境里，企业最常遇到的第一类痛点是“可观测性缺失”。调度失败时，用户往往只能看到 Pending 状态，却不知道问题究竟出在显存不足、算力不匹配、拓扑亲和限制还是 UID 约束，这造成了大量排障成本。第二类挑战来自“资源配额与虚拟化的偏差”。传统 K8S ResourceQuota 无法理解 GPU 虚拟化后的“按张卡 × 显存”的真实占用，导致显存和算力的统计失真，让资源运营变得模糊、不可控。第三类挑战来自“硬件生态的快速扩张”，企业同时部署 NVIDIA、昆仑芯、沐曦、海光等不同架构的 GPU，希望在同一个调度体系内统一使用，却苦于软件层缺乏标准化资源抽象。最后，在大规模集群中，随着节点数量和 GPU 数量指数级增长，原有调度器在 annotation 轮询、设备状态同步等路径上出现 O(n) 的 API Server 压力，使任务调度速度在高峰时段遇到瓶颈，因此如何保证 500–5000 卡规模下的稳定调度成为迫切需求。

02 解决方案

HAMi 在 2.7.0 版本中，以“可用性增强、生态扩展、调度性能进化、DRA 方向奠基”四条路径全面应对上述挑战。首先，在用户体验层面，2.7.0 引入了“调度原因可视化”，将过去隐藏在 scheduler 日志中的拒绝原因透出到 Pod Events 中，使用户可以看到节点被拒绝的具体原因，如显存不足、算力不匹配、拓扑限制、UID 不满足等。这一能力将过去需要排查日志的高成本操作变成了“抬眼可见”的清晰反馈，同时也为平台方的运维与成本管理提供了稳定的数据基础。

在资源配额层面，HAMi 通过补齐显存与算力的真实计量方式，解决了原生 ResourceQuota 在虚拟化 GPU 环境下无法正确统计的结构性问题。例如，在用户申请“2 张卡 × 每卡 1GB 显存”时，原生 K8S 只会统计 1GB，而 HAMi 通过 scheduler 侧的配额监控，将真实的 2GB 使用量精确呈现，使资源侧的会计体系更加透明，为企业构建“卡 × 显存 × 算力”的立体化核算模型奠定基础。

在生态能力上，HAMi 持续扩展与升级硬件生态，显著增强 WebUI 的异构可视化与多项核心能力，并在社区贡献者不断增长的推动下持续完善整体生态体系。

此外，李孟轩还披露了 2.8.0 版本的 Roadmap。在调度性能方向，2.8.0 预计通过将原先的周期性 annotation patch 改为初始化同步 + 变更触发读取，大幅减少了对 API Server 的写入，使大规模集群下调度性能更加稳定。这样的优化直接减少了在大规模 GPU 集群中对 API Server 的压力，使集群在大规模扩容或高负载情况下仍能保持调度稳定性与可预期的吞吐量。

最具前瞻性的升级是 HAMi 面向 DRA（Dynamic Resource Allocation）的演进。新版本计划通过拆分 Webhook、引入 DRA driver，把原有 scheduler 与 device plugin 的能力抽象进一个更标准化的资源管理体系。对于用户而言，依然保持“申请 GPU + 显存 + 算力”的原有使用方式；而在内部，资源将转化为 Kubernetes 原生的 resource claim 实现更规范的动态切分与资源指定逻辑。HAMi 的 DRA 方案使 GPU 虚拟化从社区自定义方案迈向社区与产业共同推动的标准化方向，也为未来多厂商 GPU 原生互通奠定基础。

03 落地实践

HAMi 的能力演进不是停留在设计与代码层面，而是在真实的大规模生产环境中不断被检验、推动和改造。以昆仑芯 XPU 为例，HAMi 通过适配其 P800 系列卡，使企业能够在同一集群中将 NVIDIA 与国产 XPU 放入统一调度体系。得益于 HAMi 的显存与算力切分能力，昆仑芯的模型推理任务能够实现更灵活的资源利用策略，使其在多租户场景中具备更高密度与更低碎片率。AWS Trainium / Inferentia 的适配则展示了 HAMi 在国际云环境中的扩展能力。在图像、NLP 模型推理场景中，HAMi 将这些专用推理芯片纳入 DRA 演进路径，使其具备与主流 GPU 一致的资源抽象方式，通过 Pod 配置文件即可完成显存与算力资源的调度与指定。

在企业级集群中，HAMi 在“调度原因可视化”上的改进大幅降低了排障时间。以一家拥有千卡规模集群的科研平台为例，过去每周都有大量 Pending 任务需要人工排查，而现在仅通过 Event 即可定位问题节点，使资源管理员能够即时采取动作，如扩容、迁移、策略调整等，避免训练任务堆积，显著降低 GPU 的空转损耗。

在 GPU 配额统计方面，HAMi 帮助企业构建了真实的资源账单体系，使“卡数量 × 切片显存 × 切片算力”的使用情况能够被精确记录，从而建立更公平的分摊模型与租户计费方案。过去由于统计失真导致的资源争抢、配额混乱在升级 HAMi 后得到显著缓解，使 GPU 资源池的运营效率整体提升。

在 DRA 的预期效果上，企业可以在保持原有使用习惯与 API 兼容性的情况下，尝试以 DRA driver 替代传统 scheduler + device plugin，通过 resource claim 获得更标准、更可组合、可被 Kubernetes 原生理解的资源模型。对需要将多厂商 GPU 实现统一抽象的企业而言，这意味着未来能够在 Kubernetes 内部以同一资源语义表达 NVIDIA、Ascend、XPU、DCU 等设备，为优化异构集群管理模式和使用体验迈出关键一步。