VLLM在NVIDIA Tesla V100上的部署测试小结

3、v100模型部署时，提示安装flash-attention加速，但目前 flashinfer 仅支持计算能力为 >= 8.0，flash-attention 并不支持v100，把推理后端换成XFORMERS，能够启动运行起来，但一旦调用立刻服务断开。2、v100不支持 bf16运行，只能支持普通的fp16精度，即类似torch.float16。1、v100 显卡不支持awq 量化模型运行。测试

Knoka705

2090人浏览 · 2025-04-30 14:03:16

Knoka705 · 2025-04-30 14:03:16 发布

测试模型未Qwen3-8B模型

1、v100 显卡不支持awq 量化模型运行

2、v100不支持 bf16运行，只能支持普通的fp16精度，即类似torch.float16

3、v100模型部署时，提示安装flash-attention加速，但目前 flashinfer 仅支持计算能力为 >= 8.0，flash-attention 并不支持v100，把推理后端换成XFORMERS，能够启动运行起来，但一旦调用立刻服务断开

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【AIGC篇】深度探究剖析AIGC技术背后那些所谓的算法设计及应用

2048 AI社区

提升AI模型在动态环境学习中的适应能力

在当今复杂多变的现实世界中，许多应用场景都呈现出动态性，如金融市场的波动、交通流量的实时变化、机器人在未知环境中的导航等。传统的AI模型通常是基于静态数据集进行训练的，在面对动态环境时，其性能往往会显著下降。因此，提升AI模型在动态环境学习中的适应能力具有重要的现实意义。本文的目的是深入探讨提升AI模型在动态环境中适应能力的方法和技术，涵盖从理论原理到实际应用的多个方面。研究范围包括常见的动态环境