DaoCloud：用 HAMi 构建更灵活的 GPU 云平台

guaguaRethink

622人浏览 · 2026-01-14 10:58:40

guaguaRethink · 2026-01-14 10:58:40 发布

在 AI 训练与推理需求持续增长的背景下，如何提升 GPU 利用率、降低算力成本，并同时兼顾多样化业务场景，成为云平台面临的核心挑战。

「DaoCloud 道客」围绕这一问题，在其公有与私有 GPU 云平台中使用 CNCF Sandbox 开源项目 HAMi，构建了一套更加灵活、云原生的 GPU 资源管理方式。本文基于 DaoCloud 在真实生产环境中的实践经验，梳理其在 GPU 云平台建设过程中引入 HAMi 的整体思路、落地过程与实际成效。

公司与产品背景：公有云与私有云并行的 GPU 平台

DaoCloud 面向不同类型用户，运营着两条核心产品线，并且均承载着大量 AI 训练与推理工作负载。

在这里插入图片描述

算力云（d.run） 是 DaoCloud 面向个人开发者与小微企业的公有 GPU 云服务。用户可按需购买 GPU 算力，用于 AI 训练和推理。为了满足自助购买与快速交付的需求，算力云采用相对轻量化的权限模型，并通过统一的 SKU 体系对外提供算力资源。

DaoCloud Enterprise（DCE） 则是一套面向企业客户的私有云容器平台。企业在自有环境中采购并部署 GPU 资源后，需要一个统一的平台来管理和分配这些算力。DCE 基于标准化的 Kubernetes 平台构建，支持多租户隔离、部门与队列级配额管理，并结合角色权限体系，为企业内部的 AI 训练与推理提供统一的算力资源池和算法开发平台。

工程背景：GPU 利用率与管理复杂度的双重挑战

在引入 HAMi 之前，DaoCloud 在 GPU 云平台的实际运行中面临着一系列共性问题。

在算力云场景下，GPU 主要以整卡方式分配，推理类和轻量任务往往只使用 GPU 的部分算力和显存，导致整体资源利用率偏低，同时也限制了 GPU SKU 的灵活设计。

在企业私有云（DCE）场景中，GPU 资源需要在多个部门、项目和队列之间共享，如何在保证隔离与配额约束的前提下，实现统一调度和高效使用，对平台提出了更高要求。

此外，随着平台逐步引入不同型号的 NVIDIA GPU 以及国产 GPU，加速器类型日趋多样，异构硬件的统一管理和调度复杂度也不断提升。

为什么选择 HAMi：云原生、厂商无关的 GPU 抽象层

在建设 GPU 训练平台时，DaoCloud 从最终用户真正关心的问题出发：

训练任务是否稳定、性能是否可预测
换 GPU、换集群是否需要改代码
出现性能问题时，平台能否给出清晰解释

围绕这些诉求，平台需要一套对上屏蔽硬件差异、对下保持足够透明度的 GPU 抽象层。

HAMi 提供了一种不依赖厂商授权的 GPU 抽象方式，使同一套训练任务能够在 NVIDIA 与国产 GPU 环境中保持一致的使用体验，避免用户被底层硬件与授权模型绑定，从而显著降低迁移和扩容成本。

同时，HAMi 的云原生设计使 GPU 能够像 CPU、内存一样融入 Kubernetes 调度体系。

对用户而言，这意味着：

无需理解 GPU 虚拟化细节
训练行为在不同规模与节点上更加一致
平台升级不会破坏既有训练流程

解决方案：HAMi 在 DaoCloud 平台中的实际落地

在算力云（d.run）中，DaoCloud 将 HAMi 集成到每个区域的 Kubernetes 集群中，实现 GPU 的 vGPU 切分与受控超卖。物理 GPU 被划分为不同规格的 vGPU 资源，并通过统一的 SKU 体系对外提供，用户可以根据实际需求选择合适的算力规格，而不必为整卡 GPU 付费。

在 DaoCloud Enterprise（DCE）中，HAMi 作为统一的 GPU 抽象层，将企业内部零散的 GPU 资源整合为共享算力池。vGPU 资源与平台原有的配额体系和 RBAC 权限模型深度集成，实现部门与队列级别的 GPU 配额控制，同时对算法工程师屏蔽底层硬件差异，简化使用体验。

在实际落地过程中，DaoCloud 将真实生产环境中暴露的 GPU 超卖、调度边界与异构硬件适配问题持续反馈至社区，并通过代码与实践验证，推动 HAMi 在相关能力上的持续演进。

数据与量化成效：更高利用率与更低成本

目前，d.run 已在国内及香港部署 7 个活跃区域，覆盖 10+ 数据中心。

在引入 HAMi 之后，通过 vGPU 切分与受控超卖机制，GPU 资源的使用效率得到显著提升。结合算力云（d.run）和企业私有云（DCE）的整体实践经验：

GPU 平均利用率提升至 80% 以上；
GPU 相关的综合运营成本降低约 20%–30%；
HAMi 的模块化与云原生架构 显著缩短了新区域和新集群的交付周期，GPU SKU 的定义和上线流程更加标准化。

在不同区域规模和负载结构下，具体提升幅度存在一定差异。从工程运行视角来看，在多数生产场景中，平台能够实现 70%–80% 以上的稳定 GPU 利用率水平，并随着推理类与轻量任务占比提升，成本优化效果进一步显现。

近期动态

在最近的 HAMi Meetup 上海站，DaoCloud 产品负责人 卢传佳 分享到：

“在 SaaS GPU 云场景下，最大的挑战并不只是‘把 GPU 用起来’，而是如何在高波动、高并发的情况下，把单卡的价值持续释放出来。HAMi 提供的 vGPU 切片、算力配比和调度能力，让我们可以真正以云原生的方式对 GPU 进行池化和精细化运营。

对 d.run 来说，HAMi 不只是一个调度组件，而是算力云能够规模化运营的基础能力之一。它让我们在保障 SLA 的同时，实现了更高的资源复用率，也为平台在多区域、多硬件类型上的扩展提供了足够的灵活性。”

上海密瓜智能科技有限公司专注于异构算力调度与统一管理，致力于为全球客户提供高效、灵活的算力解决方案。公司以“让异构算力因开源而好用”为使命，愿景是“构建全球领先的算力调度生态，赋能AI产业高效落地”。发起的CNCF 开源项目 HAMi，是唯一专注异构算力虚拟化的开源项目，通过灵活、可靠、按需、弹性的 GPU 虚拟化提升资源利用率，助力AI 时代算力效率提升。

官网：https://dynamia.ai

邮箱：info@dynamia.ai

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

胖东来你学不会：视人为“人”，才是生意场最稳的护城河

2048 AI社区

阿里成立新事业部，这次我是真看好他们的年终奖了

实际能够达成的效果不确定，但 AI Agent 肯定会引起企业们的 FOMO，企业不差 Token 那点钱，可能买了巨量套餐，最终只做了些小把戏工具，提效都谈不上，但没关系，能汇报就行。押注企业市场，思路是对的，阿里云作为算力巨头，又有排名前列的 Qwen 模型，现在也是合适的入场时机（AI Agent 在全民领域里刚火起来）。把所有 AI 业务（做模型的、送模型的、做个人助手的、做企业平台的）拧