阿里云国际站GPU：什么是GPU容器共享技术cGPU？实例命名规则是怎么样的？

阿里云cGPU是基于内核虚拟GPU隔离的容器共享技术，允许多个容器安全共享一张GPU卡，提高资源利用率并降低成本。该技术兼容Docker、Kubernetes等标准工作方式，无需重编译AI应用，支持GPU资源的灵活划分（显存和算力）和多种GPU实例类型。cGPU通过自研内核驱动提供虚拟GPU设备，实现性能隔离，适用于训练、推理等场景。阿里云GPU实例命名规则包含产品代号、规格族、规格大小等信息，如

TG：@yunlaoda360 云老大

536人浏览 · 2025-10-24 10:30:31

TG：@yunlaoda360 云老大 · 2025-10-24 10:30:31 发布

TG：@yunlaoda360

GPU容器共享技术cGPU是阿里云基于内核虚拟GPU隔离的容器共享技术。即多个容器共享一张GPU卡，从而实现业务的安全隔离，提高GPU硬件资源的利用率并降低使用成本。

为什么选择cGPU

兼容性好

不仅适配标准的Docker和Containerd工作方式，而且还无缝兼容Kubernetes（K8s）
工作方式。
操作简单

无需重编译AI应用，运行时无需替换CUDA库。
资源灵活划分

物理GPU的资源可以进行任意划分。例如，GPU显存动态划分，支持M级划分、GPU利用率动态划分，算力支持最小2%粒度的划分。
GPU实例规格无限制

适用于GPU裸金属实例，虚拟化实例，vGPU实例等各种GPU实例。
应用场景丰富

支持在离线混部业务（即在线业务和离线业务）、支持CUDA AI和渲染应用场景。
功能强大

具备高优先级的抢占功能和较高的可运维能力，支持热升级、支持多卡划分功能。

cGPU架构图

GPU容器
共享技术cGPU的架构图如下所示：

为了提高GPU硬件资源的利用率，需要在单张显卡上运行多个容器，并在多个容器间隔离GPU应用。

cGPU通过自研的内核驱动为容器提供虚拟的GPU设备，在保证性能的前提下隔离显存和算力，为充分利用GPU硬件资源进行训练和推理提供有效保障。您可以通过命令方便地配置容器内的虚拟GPU设备。

命名规则

阿里云云服务器ECS提供了多种实例规格族，一种实例规格族又包括多个实例规格。其中，实例规格族名称格式为ecs.<规格族>，实例规格名称为ecs.<规格族>.<规格大小>。

实例具体命名含义如下所示：

ecs：云服务器ECS的产品代号。
<规格族>：由规格族主体+规格族后缀组成。
<规格大小>：由small、large或<nx>large组成，表示vCPU核数。small表示1 vCPU，large表示2 vCPU，xlarge表示4 vCPU。<n>中的n越大，表示vCPU核数越多，如2xlarge代表2 * 4 = 8 vCPU，3xlarge代表3 * 4 = 12 vCPU等等，以此类推。

实例规格族（异构计算规格族、弹性裸金属服务器以及超级计算集群）的组成部分如下：

例如，ecs.ebmgn7ix.32xlarge为搭载NVIDIA GPU卡的GPU计算型弹性裸金属服务器实例规格族中的一个实例规格，配备增强型AMD CPU，拥有32 * 4 = 128 vCPU，7表示采用Ampere架构，GPU类型为A10且GPU显存为24 GB。

规格的命名主要在于规格族的差异，下方表格详细介绍了规格族的组成部分。

GPU命名示例

本示例以GPU计算型和GPU虚拟化型实例规格族为例，展示GPU实例规格的命名含义。

GPU计算型（gn/ebm/scc系列）
- 示例1：ecs.sccgn6.24xlarge表示超级计算集群sccgn6中的一个实例规格，拥有96个vCPU核（即24*4核=96核）。
- 示例2：ecs.ebmgn7e.32xlarge表示GPU计算型弹性裸金属服务器实例规格族ebmgn7e中的一个实例规格，其采用Ampere架构，拥有128个vCPU核（即32*4核=128核）。
GPU虚拟化型（vgn/sgn系列）

示例：ecs.vgn6i-m4.xlarge表示采用NVIDIA GRID vGPU加速的独享型vgn6i规格族的一个实例规格，其采用Volta/Turing架构，拥有4个vCPU核的NVIDIA T4 GPU。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

信创风起，日志新生 | 第四篇：从混乱到统一——日志标准化与 traceId 注入全攻略

摘要日志标准化是构建高效可观测性系统的关键基础。本文系统阐述了日志标准化的必要性、核心字段规范（如timestamp、traceId、tenantId等）及JSON格式标准，并详细介绍了traceId注入机制（包括MDC传播、跨服务透传等技术实现）。针对低代码平台的特殊性，提出了租户隔离、生成器改造等解决方案。通过政务平台案例验证，标准化改造使traceId覆盖率达99%，故障定位时间缩短至1小