360 HBox算力调度平台万卡规模高效调度方案深度解析

HBox 算力调度平台构建了一套面向万卡规模 AI 集群的全链路调度体系，本文介绍了 Hbox 的大部分算力调度能力：三池模型保障 SLA优先级抢占保障关键生产业务网络拓扑与 NUMA 双感知MIG + vGPU 虚拟化融合GPU与CPU 灵活配比调度……通过上述能力的协同运作，HBox 算力调度平台能够在复杂、多变的 AI 负载环境中，实现资源利用率、业务稳定性与调度公平性之间的平衡，为上层训练

360智汇云

707人浏览 · 2025-12-30 15:31:22

360智汇云 · 2025-12-30 15:31:22 发布

1.背景与挑战

随着大模型训练规模从千卡向万卡演进，算力基础设施的主要瓶颈正从“GPU 规模不足”转向“算力调度与资源利用效率不足”。

在实际生产环境中，普遍面临如下问题：

GPU 利用率长期低于 60%，大量资源“空跑”
高价值训练任务被低优任务排队挤占，SLA 难以保障
多机 NCCL 通信受网络拓扑影响严重，性能抖动明显
GPU 各类共享机制复杂，使用门槛高
NUMA 亲和性调度仅限单节点内生效，集群级调度器无法感知 NUMA 资源

当集群规模达到千卡、万卡级别时：传统 Kubernetes 调度能力已经无法支撑大模型训练的稳定性与效率需求。经过多年在大规模算力调度方向积累的实战经验，360AI开发平台内部打造了一套高效、稳定、易用的能够支撑万卡乃至更大规模的HBox算力调度平台。

2.HBox 算力调度平台

HBox 是面向大规模 AI 集群的一体化算力调度平台，目标不是单点提升 GPU 共享能力，而是系统性解决算力调度问题，整合多种调度功能：

算力池化
SLA 调度保障
网络感知调度
GPU 虚拟化整合
NUMA 亲和性调度
支持国产化芯片
自动故障检测
等等

通过多维调度协同，实现：在保证任务稳定性的前提下，大幅提高 GPU 资源利用率。

3.资源分类与算力池化

随着集群规模与业务类型的快速增长，算力平台同时承载着大规模训练、在线部署、弹性计算、关键生产及测试验证等多种类型的工作负载。不同任务在性能稳定性、资源独占性、调度灵活性及成本敏感度方面的诉求存在显著差异，若采用单一的资源分配模型，容易导致高优任务受资源争抢影响、普通任务资源浪费或整体利用率下降，难以同时兼顾 SLA 保障、资源效率与运营收益。

HBox 算力调度平台对集群资源进行分类管理，针对异构业务负载在稳定性、隔离性及成本敏感度上的差异，HBox 将集群统一划分为三类资源池：

资源类型	适用场景	资源特点
公共资源	普通计算任务、测试任务	所有用户可访问高峰期无法保证稳定的资源分配。适合对延迟/专属硬件要求不高的任务
池化资源	生产任务、弹性任务、无需占用整机资源的任务	为用户提供基本的资源保障，同时允许用户超额使用空闲资源支持闲时共享、弹性调度，提高利用率可设置优先级/抢占策略
独占资源	延迟敏感业务、关键生产任务、大规模训练任务、需要占整机资源运行的任务	强隔离保证性能稳定不受其他任务干扰提高 SLA 和预测性

对比传统集群调度：

维度	传统统一集群	HBox 三池模型
SLA 保障	不稳定	按池级保障
资源利用率	30~60%	70~90%
算力弹性	不可控	按任务精细复用
运维成本	高	平台统一治理

Hbox 三池模型能够在保障高性能的前提下，兼顾业务灵活性、资源利用率和收益提升：

资源隔离程度由低到高：公共资源 < 池化资源 < 独占资源。
不同任务可根据需求选择最合适的资源池，避免资源浪费或任务性能受限，提高用户体验与满意度。
合理划分集群资源，不仅降低资源闲置成本，还能通过弹性调度和多租户管理，提高集群整体收益。

4.基于优先级的抢占调度

在同一部门的共享资源池中，生产任务、测试任务和开发任务通常并存，经常会发生资源竞争。为了保障关键业务的服务等级协议（SLA），HBox 引入基于队列与优先级的调度模型，对业务进行天然隔离与等级保障。

调度机制：

每个部门对应独立资源队列
队列内划分三级优先级：
1. 高优先级：可抢占低优任务，不可被抢占
2. 中优先级：固定保障，不参与抢占
3. 低优先级：可以被抢占。

下面是高优先级任务抢占低优先级任务的示意图：

在 360 AI 开发平台内部，已启用抢占调度功能，达成如下效果：

核心业务抢占成功，无需排队
开发、调试任务自动利用碎片算力
SLA 可预测性显著提升

5.网络拓扑感知调度

在网络密集型AI大模型训练与推理场景中，传统的资源调度策略往往仅关注计算资源（GPU、内存、CPU）的可用性，忽视了计算节点间的网络拓扑结构对整体性能的关键影响。为此，我们设计并实现了基于网络拓扑感知的调度策略，将集群网络结构纳入调度决策核心考量，显著提升分布式大模型任务的执行效率与资源利用率。

Hbox 算力调度平台通过下列两个组件来实现网络拓扑感知调度：

网络拓扑探测器：
1. 利用 NVIDIA UFM 实时采集 IB 交换机与端口链路信息
2. 构建全局通信拓扑树
Network Topology Aware Scheduler：
1. 调度时综合评估节点通信收益
2. 优先将同一作业 Pods 分配至通信最优路径节点

网络拓扑探测器：使用 UFM 收集 IB 交换机、IB 网卡的连接情况，然后基于连接情况生成网络拓扑树。树的叶子节点是物理机，非叶子节点是交换机。一个物理节点可能含有多个 IB 网卡，从而连接到多个交换机上。

K8s 调度器：Hbox 算力调度平台的 K8s 调度器组件在为分布式大模型任务分配资源时，会根据网络拓扑树来分配资源。用户创建任务时，可以设置下列几种网络拓扑策略：

none：无需网络感知。
bestEffort：尽量分配通信最优节点
singleSwitch：任务的所有 Pod 必须运行在同一个交换机连接的节点上。如果集群无法满足，则禁止为任务分配资源。

实测收益：

NCCL 通信 latency 下降 20%
集群调度稳定性显著提高

6.GPU 虚拟化

在使用 GPU 进行较大规模的 AI 模型训练时，大量的训练数据被 GPU 并行批处理，GPU 可以被充分的使用。但是，对于有些计算，例如交互式的 Notebook，小规模或者低使用量的模型推理服务，经常只需要使用 GPU 的部分计算能力。在这些情况下，如果能够让多个计算任务共享使用 GPU，将能极大地提高 GPU 的利用率，进而获得有益的投资回报率。

6.1 背景-NVIDIA 共享策略

目前，GPU 的主流供应商是 NVIDIA。下面介绍 NVIDIA GPU 提供的几种共享机制：

Time-Slicing

描述：Time-Slicing 指多个容器/进程轮流占用同一张物理 GPU 的计算时间片。GPU 不做物理切分，每个 Pod 都看到“完整 GPU”，NVIDIA Driver 根据调度器策略进行上下文切换。
优点：
1. 部署成本低：不动硬件，只改 Device Plugin 配置。
2. 调度弹性极强：容易进行多租户超卖。
3. 零硬件门槛：主流型号的GPU都支持
缺点：
1. 无资源隔离：对显存无隔离限制，不可控性极强。
2. 显存无法限额：任何 Pod 超用显存都会导致 OOM，导致所有任务崩溃。

MPS（Multi-Process Service）

描述：GPU 进程级并发共享机制，通过一个 MPS Server 守护进程接管多个 CUDA 进程的 context，把它们合并为一个 context，减少 context 切换开销，提高 GPU 利用率。
优点：
1. 进程显存限制：可以限制单进程的显存大小。
2. 更好性能：消除 CUDA context 的切换开销，相比于 Time-Slicing 有更好的性能。
3. 零硬件门槛：主流型号的GPU都支持
缺点：
1. 无容器级别显存限制：当一个容器内启动多个使用 GPU 的进程时，MPS 只能限制每个进程使用的 GPU 显存。

MIG（Multi-Instance GPU）

描述：硬件级切片，单个 GPU 被分割为最多 7 个独立的计算实例。每个实例拥有：独立 SM、独立显存、独立 cache、独立 context。
优点：
1. 硬件隔离：并发进程安全运行且互不影响
2. 共享技术叠加：每个分区可以叠加使用其它共享技术，例如 vGPU，time-slicing, MPS。
3. 分区监控：在分区级别提供监控和遥测（monitoring & telemetry）数据
缺点：
1. 硬件门槛高：只有A系列及以上型号的卡支持
2. 切片规格固定：切片方式并不灵活，有可能造成资源浪费。详细切分方式见 https://docs.nvidia.com/datacenter/tesla/mig-user-guide/supported-mig-profiles.html。
3. 切分变更成本大：GPU 闲置情况下，才能更换切分方式。

vGPU

描述：虚拟化技术，通过借助 hypervisor + NVIDIA vGPU Manager 将一个物理 GPU 映射成多个虚拟 GPU。它对具有完整输入输出内存管理单元 (IOMMU) 保护的 VM (Virtual Machine) 提供支持，使得这些 VM 能够同时、直接地访问单个物理 GPU
优点：
1. 完整虚拟化：为每个虚拟机提供独立的虚拟 GPU 设备。
2. 隔离性强：每个 vGPU 拥有独立显存配额，计算调度和地址空间隔离，工作负载互不可见。
3. 动态切分：单物理卡可以动态切分成多个 vGPU。
缺点：
1. 性能损耗较大（10–20%+）：完整虚拟化层和中间调度开销、上下文切换和指令转发开销。
2. 管理复杂：部署与运维复杂度较高。需部署并维护 Hypervisor；vGPU Manager 驱动与宿主机内核强绑定；Guest OS 需安装对应 vGPU Driver；Driver 版本、内核版本、Hypervisor 需严格匹配。
3. 商用授权昂贵：部署 vGPU 需要额外的软件授权费用。

6.2 HBox 虚拟化策略

Hbox 算力调度平台集成 NVIDIA MIG与 HAMi vGPU 两种主流 GPU 虚拟化方案，构建了一套多层次、多场景的 GPU 资源管理与调度体系。这两种技术在架构设计、资源隔离机制和适用场景上形成互补，为用户提供从物理级隔离到虚拟化共享的全栈 GPU 资源解决方案。

NVIDIA MIG：Hbox 平台将 MIG 实例作为底层的、可被调度的离散资源单元进行管理。

特点：
1. 硬件隔离：每个 MIG 实例拥有独立的流处理器（SMs）、二级缓存（L2 Cache）和显存带宽（DRAM Bandwidth）。
2. 安全可靠：实例间无法互相访问内存或计算单元
3. 性能稳定：每个实例提供可预测的性能表现
适用场景
1. 核心业务推理：对稳定性和隔离性要求极高的线上推理服务。
2. 多租户环境：为不同租户提供物理隔离的 GPU 资源，保障数据安全与性能。
3. HPC与高性能训练：需要独占部分 GPU 资源且要求稳定性能的训练任务。

HAMi vGPU：Hbox 平台引入 HAMi（Heterogeneous AI Computing Virtualization Middleware）作为软件定义的虚拟化层，通过拦截 CUDA API 指令和显存管理，实现了超越物理限制的细粒度资源切分与共享。

特点：
1. 细粒度切分：不同于 MIG 的固定规格切分，HAMi 支持以 1% 为单位的算力切分和以 MB 为单位的显存切分，能够极其精准地匹配业务需求，拒绝资源虚占。
2. 使用灵活：用户无需感知底层物理 GPU 型号与拓扑，可按标准化的 vGPU 规格（如“8GB-算力型”）申请资源，实现业务的快速部署与弹性伸缩。
3. 广泛兼容性：不受限于特定高端 GPU 架构，可完美支持多种类型显卡。
适用场景：
1. 开发与调试环境：针对代码调试、Jupyter Notebook 等交互式任务，这些任务通常占用显存小且算力利用率低，使用 HAMi 可实现极高的资源复用率。
2. 中小规模推理与边缘场景：对轻度算力需求的批量推理任务，或资源受限的边缘节点，通过 vGPU 实现成本最优的资源供给。

推荐的 GPU 使用方案：

场景	推荐方案
Notebook	HAMi
轻量推理	HAMi
SLA 严格推理	MIG
大规模训练	独占 GPU

总结：Hbox 算力调度平台通过统一的 GPU 设备插件与资源模型，将 NVIDIA MIG 与 HAMi vGPU 两种不同层级的虚拟化能力收敛到同一调度体系中，对上层调度器和用户屏蔽底层实现差异。用户仅需按标准化 vGPU 规格申请资源，即可完成从 Notebook 开发、轻量推理到 SLA 严格推理及训练任务的全场景算力调度。

7.NUMA 拓扑感知调度

在 GPU 显存和 CPU 内存频繁交互的场景下，如果任务被分配跨 NUMA 节点的 GPU、内存、CPU，会导致访问延迟高、带宽低，从而降低任务的运行效率。HBox 算力调度平台对 NUMA 拓扑感知调度的支持：

现状：目前支持单节点上的 NUMA 拓扑调度。
未来计划：通过改造 Kubernetes 调度器 + Device Plugin，实现集群级别的 NUMA 亲和性调度。

7.1 现状

目前，HBox 算力调度平台已在单节点范围内启用 NUMA（Non-Uniform Memory Access）拓扑感知调度能力，通过对 Kubernetes 节点资源管理组件的精细化配置，实现 CPU、内存、GPU等关键资源在 NUMA 节点内的就近分配，从而提升业务负载的性能稳定性与可预测性。

1.NUMA 拓扑调度基础配置

在节点层面，HBox 平台对 kubelet 进行了如下关键配置：

CPU Manager Policy：static。为符合条件的 Pod 分配独占 CPU 核心，基于 cpuset 实现精确的 CPU 绑定，是 NUMA 感知调度生效的前置条件。
Topology Manager Policy：best-effort。在 Pod 创建阶段，尽可能对齐 CPU、内存、GPU设备资源的 NUMA 拓扑关系，在不影响调度成功率的前提下，最大化 NUMA 本地性收益。

通过上述配置，kubelet 在节点内资源分配阶段具备了 NUMA 感知能力，为后续性能优化奠定基础。

2.用户任务侧约束要求

在 HBox AI 平台提交的计算任务都满足下列条件：

Pod 的资源规格满足 Guaranteed QoS。
CPU 资源以整数核形式申请

3.NUMA 实践中的关键配置经验

在实际生产环境中，除了基础 NUMA 功能的启用，HBox 平台还总结并沉淀了以下重要实践经验。

经验一：关闭 lxcfs

在 NUMA 敏感场景中，建议关闭 lxcfs。
原因：lxcfs 通过 FUSE 虚拟化 /proc 与 /sys 文件系统，为容器提供基于 cgroup 视角的资源视图。这一机制在限制容器资源观测性的同时，会对 NUMA 拓扑信息进行裁剪或重构。
影响机制：
1. lxcfs 会重写 /sys/devices/system/node 等 NUMA 相关路径；
2. 用户态程序（如 NUMA 感知的运行时、计算框架或库）基于这些信息进行 NUMA 优化决策；
3. 虚拟化后的拓扑信息可能导致用户态对 NUMA 架构产生误判，从而削弱甚至抵消 NUMA 亲和性优化效果。

经验二：合理配置 NPS（NUMA Per Socket）

通过合理设置 NPS，可从硬件层面优化 NUMA 拓扑结构。
原因：NPS 是服务器 BIOS 层面提供的 NUMA 划分策略，用于控制每个 CPU Socket 被划分成的 NUMA 节点数量。NPS 的设置直接决定了操作系统和 Kubernetes 所感知到的 NUMA 拓扑形态。
实践建议：根据主板拓扑结构、CPU 型号、PCIe 设备分布（如 GPU）以及业务负载特性，选择合适的 NPS 值；

总结：通过 kubelet NUMA 感知配置 + 任务侧资源约束 + lxcfs 行为控制 + BIOS 层 NPS 调优的协同，HBox 算力调度平台在单节点范围内构建了一套可落地、可验证、可持续演进的 NUMA 拓扑调度实践，为高性能计算、GPU 推理与训练等场景提供了坚实的系统基础。

7.2 计划

未来，HBox 算力调度平台会实现集群级的 NUMA 调度能力。在集群层面，HBox 调度器具备对 CPU 与 GPU NUMA 拓扑资源状态的全局感知能力，能够在调度决策阶段综合考虑各节点的 NUMA 资源剩余情况，精确筛选满足拓扑约束条件的最优节点，避免将 NUMA 不匹配的负载调度至不合适的节点，降低跨 NUMA 访问带来的性能损耗。

设计架构：

实现原理：

NUMA 拓扑状态采集

CPU NUMA 信息收集：HBox 组件在节点侧持续采集 CPU 在各 NUMA node 上的可用核数、已分配情况等信息，形成细粒度的 NUMA 资源视图。
GPU NUMA 信息解析：通过对 Kubernetes Device Plugin 进行适配与增强，HBox 从 kubelet 获取 GPU 的实际分配状态，并结合 GPU NUMA 拓扑关系，解析出各 NUMA node 上 GPU 资源的剩余情况。
通过上述机制，HBox 在集群层面构建了统一的 CPU 与 GPU NUMA 资源模型。

集群调度器的 NUMA 感知决策

集群调度器在执行节点筛选与优选时：
1. 评估 CPU 与 GPU 在各 NUMA node 上的可用资源；
2. 对候选节点进行 NUMA 亲和性打分，优先选择能够在单一或最优 NUMA 拓扑内满足资源需求的节点；
3. 在满足功能性调度约束的前提下，最大化 CPU–GPU 本地性和资源连续性。
该机制使 NUMA 拓扑约束在调度阶段即被显式纳入考量，而非完全依赖节点内的事后修正。

8.GPU与CPU灵活配比调度

现状：在传统 AI 基础设施中，计算资源通常以静态规格、固定配额的方式进行分配，在 GPU 节点上，调度系统根据任务申请的 GPU 数量静态分配固定数量的 CPU 与内存资源，这会导致 GPU 节点上 CPU 资源的浪费。以 GPU 密集型任务（如大模型推理）为例：

GPU 利用率往往接近饱和
实际 CPU 仅承担少量控制逻辑与任务编排工作
大量已分配的 CPU 核心长期处于低负载甚至空闲状态

HBox 算力调度平台计划提供并完善 GPU、CPU 灵活配比调度能力，使得 CPU 任务运行在 GPU 节点上，充分利用 GPU 任务未使用的 CPU 资源，提供集群资源利用率。集群中会划分出一部分 GPU、CPU灵活配比调度的节点，这些节点可以同时运行 GPU 任务和 CPU 任务：

GPU 任务：以 GPU 计算为主的任务，如模型训练与大模型推理。HBox 为这些任务分配有限的 CPU 资源。
CPU 任务：以 CPU 计算为主，如数据预处理、特征工程、离线分析、分布式PD分离中的proxy等。

这种灵活的调度机制可以：

充分利用 CPU 算力：以前闲置的 CPU 核心现在成了处理大数据预处理的“主力军”，真正实现了节点内部的资源闭环。
缩短任务周期：更多的 CPU 任务无需排队等待专属 CPU 节点，利用 GPU 节点的剩余 CPU 资源即可即时启动，加速了 AI 开发的全链路流程。
提高集群利用率：集群整体 CPU 利用率不再受 GPU 任务的限制，大幅提升了资源投资回报率。

9.国产化芯片调度支持

HBox算力调度平台在国产化芯片的适配、支持上也做了很多工作，其中国产化芯片的调度是重要的一项工作内容。目前HBox算力调度平台在昇腾910B系列、310P系列的调度及使用上都积累了大量的经验。

昇腾系列AI处理器的特点：

内部处理器之间采用HCCS方式连接
每台物理设备具备8颗或16颗处理器，两个HCCS，每个HCCS存在4颗或8颗处理器，同一HCCS内处理器可做数据交换，不同HCCS内处理器不能直接通信，需要通过PCIe或节点上的高性能网络经过交换机进行通信

基于昇腾AI处理器的上述特点，需要在创建昇腾AI任务时，尽可能将任务分配到同一个HCCS互联的处理器上。为适配这一场景，提升昇腾AI处理器在AI训推中的性能，华为开源了ascend-for-volcano调度插件。该插件基于开源Volcano调度的插件机制，增加昇腾处理器的亲和性调度，最大化发挥昇腾处理器的计算性能。HBox算力调度平台正是基于此方案，进行了大量的验证、实战，保证了昇腾AI训推任务的高效稳定运行。

未来，HBox算力调度平台还会在国产化芯片上持续投入，丰富支持的芯片类型比如海光DCU系列等。除此之外还会在国产化芯片的虚拟化、资源共享方面做更多的工作，更好的助力国产化芯片的落地应用。

10.稳定性建设

为保障大规模 GPU 集群在高负载、长时间运行场景下的稳定性，HBox 算力调度平台围绕 “故障可感知、风险可隔离、问题可自愈、状态可追溯” 的目标，构建了一套覆盖硬件层、驱动层、通信层与 Kubernetes 调度层的算力稳定性监控与处置体系，并将该体系与AI任务调度相结合，充分保证大规模AI训推任务的稳定性。

该体系以 qihoo-smi 节点守护组件为核心，对 GPU、NVLink、网卡及关键系统服务进行持续巡检，并与调度系统深度联动，实现故障节点的自动隔离与业务保护。

10.1 异构算力环境的深度适配

HBox 目前已全面适配主流高性能计算机型，确保在不同算力架构下监控指标的一致性：

适配机型：包括 NVIDIA A100、A800、H800、H100、H200 、H20 以及 L20 等。
部署机制：通过 K8s 标签 qihoo.net/qihoo-smi.deploy: "true" 精确控制监控组件在特定节点上的部署。

10.2 多维度的故障监测体系

平台将故障细分为 GPU、网卡、慢节点及系统组件四大类，实现了从物理层到 K8s 资源层的深度穿透。

GPU 故障检测与处理

针对 GPU 资源，平台提供了极其细腻的监控策略：

基础故障（掉卡、NVLink 异常）：系统每分钟执行一次检测。一旦发现物理层面掉卡或 NVLink 状态异常，将立即执行 Cordon 节点操作并触发报警，防止新任务调度至异常节点。
显存故障（ECC）：涵盖单位/双位不可校验错误及 nvidia-smi 报错。对于影响较大的双位 ECC 错误，采取 Cordon 隔离策略，并探索在 GPU 无业务进程时自动进行重置自愈。
关键服务（Nvidia-Fabricmanager）：针对该服务的退出问题，平台通过修改 systemd 配置实现进程崩溃后的自动拉起（Restart=always），并同步发出告警通知。
XID 错误捕捉：实时监控 Xid 74、109、79 等典型错误（如 GPU 掉线或上下文切换超时），及时隔离故障节点。

网络与扩展资源监控

AI 集群对带宽和拓扑极度敏感，HBox 专门强化了网卡与算力资源的联动监控：

Mellanox 网卡监控：支持网卡服务降级（Downgraded）与断连（Down）检测。当网卡恢复正常（Up）时，系统支持自动执行 Uncordon 恢复节点调度。
内核模块自愈：如发现 nvidia_peermem 模块未加载，系统将触发自动修复逻辑重新加载内核模块。
K8s 资源对齐：针对 mlx 扩展资源在 K8s 中显示为零的问题，平台通过升级设备插件并配合 qihoo-smi 检测，确保网络资源在调度层可见。

性能衰减与集群稳定性监控

慢节点检测（NCCL-Tests）：目前已上线针对 MPI 多机任务的性能检测，通过自动化测试发现集群中的性能“长尾”节点，避免单一节点的带宽瓶颈拖慢整体训练速度。
API-Server 连接性：系统持续监测节点与 K8s 控制平面的通信状态。若连接失败持续 3 次，将触发报警，但考虑到业务稳定性，默认不进行 Cordon 操作，仅通过自愈逻辑尝试修复。

智能化告警与精细化管理

告警闭环：统一规范告警格式，支持告警恢复通知。当节点 Uncordon 时，系统会自动关联 ES 中的异常记录并发送恢复提醒。
豁免机制：针对部分已知但暂不影响业务、或无法立即修复的故障，支持通过标签 qihoo.net/qihoo-smi: exempt 实现节点豁免检测，避免不必要的 cordon 影响作业运行。
数据分析：所有异常告警信息同步存储于 Elasticsearch，为后续的故障频率统计和硬件选型优化提供数据支持。

11.总结

HBox 算力调度平台构建了一套面向万卡规模 AI 集群的全链路调度体系，本文介绍了 Hbox 的大部分算力调度能力：

三池模型保障 SLA
优先级抢占保障关键生产业务
网络拓扑与 NUMA 双感知
MIG + vGPU 虚拟化融合
GPU与CPU 灵活配比调度
……

通过上述能力的协同运作，HBox 算力调度平台能够在复杂、多变的 AI 负载环境中，实现资源利用率、业务稳定性与调度公平性之间的平衡，为上层训练与推理业务提供稳定、高效的算力支撑。

未来计划-硬件管理与资源分配机制的演进：

目前，HBox 算力调度平台基于 Kubernetes 设备插件（Device Plugin）机制对 GPU 等硬件加速资源进行管理与分配。设备插件模式在当前 Kubernetes 生态中被广泛采用，但其资源模型以静态声明与节点级注册为核心，在资源表达能力、动态调度灵活性以及复杂硬件拓扑感知等方面存在一定局限。
面向未来，HBox 计划引入 Kubernetes 动态资源分配（Dynamic Resource Allocation）机制，基于声明式资源请求与调度器原生协同，实现对硬件资源更精细化、动态化的分配与管理，以更好地支撑多样化和复杂化的算力使用场景。