VLLM在NVIDIA Tesla V100上的部署测试小结
3、v100模型部署时,提示安装flash-attention加速,但目前 flashinfer 仅支持计算能力为 >= 8.0,flash-attention 并不支持v100,把推理后端换成XFORMERS,能够启动运行起来,但一旦调用立刻服务断开。2、v100不支持 bf16运行,只能支持普通的fp16精度,即类似torch.float16。1、v100 显卡不支持awq 量化模型运行。测试
·
测试模型未Qwen3-8B模型
1、v100 显卡不支持awq 量化模型运行
2、v100不支持 bf16运行,只能支持普通的fp16精度,即类似torch.float16
3、v100模型部署时,提示安装flash-attention加速,但目前 flashinfer 仅支持计算能力为 >= 8.0,flash-attention 并不支持v100,把推理后端换成XFORMERS,能够启动运行起来,但一旦调用立刻服务断开
更多推荐


所有评论(0)