qemu-kvm下的cuda虚拟化
Aguest侧:编写设备驱动,实现 open、close、read、write、ioctl 接口,承接guest侧应用的 cuda api 请求;Bhost侧:接收 guest 过来的api接口及参数数据,将参数重新组装,然后调用物理显卡的cuda api,并将所需结果返回给guest侧;当前AI和大模型火热,对算力的需求越来越高,如何高效的利用算力资源问题被凸显出来了。cuda虚拟化,一张显卡的
背景:
当前AI和大模型火热,对算力的需求越来越高,如何高效的利用算力资源问题被凸显出来了。
目标:
在虚拟化场景下,单张显卡的算力能同时被多个虚拟机调度使用。
技术:
cuda虚拟化,一张显卡的cuda算力能同时被多个虚拟机使用。
基于qemu-kvm虚拟化,在虚拟机内实现一个 vcuda-pci 设备,进行 guest 和 host 之间的数据交互;
A guest侧:编写设备驱动,实现 file_ops 相关的接口,承接guest侧应用的 cuda api 请求,支持Linux、Windows虚拟机;
B host侧:接收 guest 过来的api接口及参数数据,将参数重新组装,然后调用物理显卡的cuda api,并将所需结果返回给guest侧;
核心点:整体流程的时延,cuda api的支持个数。
##########################################################################
qemu侧(基于6.2.0):
命令行添加如下参数:
-device virtio-vcuda-pci
host侧:
host上有一块1660s的显卡,并且安装了cuda 12.2

启动虚拟机:
/mnt/qemu-debug/bin/qemu-system-x86_64 -enable-kvm -vga std -m 4096 -smp 4 -cpu host -net nic,model=e1000 -net user -hda /home/ubuntu2004.img -vnc 0.0.0.0:0 -device virtio-vcuda-pci
guest侧(只设配了Linux虚拟机,Windows代码移过去就行,都是对device的操作):
可以看到guest虚拟机内是没有显卡的:


虚拟机内的vcuda-pci设备:

加载驱动并生成动态库:
libcudart.so.12.2.140
测试demo程序 test123.c :
#include <stdio.h>
#include <stdlib.h>
#include <stdint.h>
#include <cuda.h>
#include <builtin_types.h>
int main()
{
int a;
int count;
//char *name = (char *)malloc(100);
char name[100];
int len = 50;
CUresult cuinit = cuInit(0);
CUcontext pctx;
cuCtxCreate(&pctx, 0, 0);
const char *err_str;
cuGetErrorName(cuinit, &err_str);
printf("----err_name = %s----\n", err_str);
cuGetErrorString(cuinit, &err_str);
printf("----err_str = %s----\n", err_str);
cuDriverGetVersion(&a);
printf("version = %d------\n", a);
CUdevice device;
cuDeviceGet(&device, 0);
printf("device = %d---\n", device);
cuDeviceGetCount(&count);
printf("count = %d------\n", count);
cuDeviceGetName(name, len, device);
printf("name = %s------\n", name);
CUuuid *uuid = malloc(sizeof(CUuuid));
cuDeviceGetUuid(uuid, device);
printf("Uuid = ");
for (int j = 0; j < sizeof(CUuuid); j++) {
printf("%02hhX", uuid->bytes[j]);
}
printf("\n");
char luid[50];
unsigned int mask;
cuDeviceGetLuid(luid, &mask, device);
printf("----luid=%s---mask=%d----\n", luid, mask);
size_t mem;
cuDeviceTotalMem(&mem, device);
printf("TotalMem = %ld------\n", mem);
int pi;
//CUdevice_attribute attrib = CU_DEVICE_ATTRIBUTE_MULTIPROCESSOR_COUNT;
CUdevice_attribute attrib = CU_DEVICE_ATTRIBUTE_COMPUTE_CAPABILITY_MAJOR;
cuDeviceGetAttribute(&pi, attrib, device);
printf("---pi = %d--\n", pi);
printf("CU_DEVICE_ATTRIBUTE_COMPUTE_CAPABILITY_MAJOR = %d---\n", CU_DEVICE_ATTRIBUTE_COMPUTE_CAPABILITY_MAJOR);
CUdeviceptr dptr;
size_t memalloc = 225002496;
cuMemAlloc(&dptr, memalloc);
printf("---cuda mem alloc = %lld----\n", dptr);
cuCtxDestroy(pctx);
return 0;
}
// gcc -o test123 test123.c -I /usr/local/cuda/include/ -lm ./libcudart.so.12.2.140
运行效果:
可以看到在虚拟机内调用到了host上的显卡,实现了cuda虚拟化的效果

TODO:
适配更多的cuda api,算力隔离,QoS,灵活调度策略。。。
更多推荐



所有评论(0)