测试模型未Qwen3-8B模型

1、v100 显卡不支持awq 量化模型运行


2、v100不支持 bf16运行,只能支持普通的fp16精度,即类似torch.float16


3、v100模型部署时,提示安装flash-attention加速,但目前 flashinfer 仅支持计算能力为 >= 8.0,flash-attention 并不支持v100,把推理后端换成XFORMERS,能够启动运行起来,但一旦调用立刻服务断开

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐