vllm多卡部署qwen2.5-72b-instruct

1. 介绍1.1 vllmvLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架，旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库，用于 LLM 推理和服务，可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」，有效地管理注意力键和值。vLLM的特点和优势：采用了 PagedAttention，可

xuebodx

2470人浏览 · 2025-02-23 19:04:00

xuebodx · 2025-02-23 19:04:00 发布

1. 介绍

1.1 vllm

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架，旨在极大地提升实时场景下的语言模型服务的吞吐与内存使用效率。vLLM是一个快速且易于使用的库，用于 LLM 推理和服务，可以和HuggingFace 无缝集成。vLLM利用了全新的注意力算法「PagedAttention」，有效地管理注意力键和值。

vLLM 的特点和优势：

采用了 PagedAttention，可以有效管理 attention 的 keys、values。

吞吐量最多可以达到 huggingface 实现的24倍，文本生成推理（TGI）高出3.5倍，并且不需要对模型结构进行任何的改变。

2. 环境配置

h20-93GB * 2

PyTorch 2.5.1

Python 3.12(ubuntu22.04)

Cuda 12.4

Triton==3.1.0
transformers==4.46.0
safetensors==0.5.2

vllm==0.7.0

3. qwen2.5-72b-instruct模型下载

3.1下载网址

https://huggingface.co/Qwen/Qwen2.5-72B-Instruct/tree/main

模型文件：135G

3.2 下载后存放目录

/LLM/Qwen2.5-72B-Instruct

4. api server服务启动

4.1 写启动脚本api_server.sh

CUDA_VISIBLE_DEVICES=0,1 python -m vllm.entrypoints.openai.api_server --model /root/autodl-tmp/LLM/qwen2.5-72b-instruct --served-model-name qwen2.5-72b --dtype=half --max-model-len 1000  --tensor-parallel-size=2 --pipeline-parallel-size=1 --gpu-memory-utilization 0.8

4.2 启动脚本api_server.sh

sh api_server.sh

GPU占用156G：

5. 写客户端验证

5.1 写python程序client_demo.py

5.2 运行client_demo.py程序

python client_demo.py

5.3 模型输出

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

知识图谱+大模型协同应用教程：从零基础入门到精通，推荐实战指南，一篇搞定！

2048 AI社区

大模型应用关键技术：实时性保障与多轮对话一致性实践

摘要：本文探讨大模型应用中的实时性和多轮对话一致性技术。实时性保障通过模型轻量化、推理引擎优化和上下文缓存实现，以ONNX Runtime量化为例，将7B参数的Llama 2模型推理延迟从2.8秒降至1.1秒。多轮对话一致性通过上下文压缩、对话状态跟踪(DST)和结构化Prompt设计维护，案例演示了基于Redis的智能点餐系统如何跟踪用户状态。两项技术分别提升用户体验和交互逻辑的连贯性，适用于

2048 AI社区

深入解析检索增强生成（RAG）技术

摘要：本文介绍了检索增强生成（RAG）技术及其核心模块。RAG通过结合信息检索与生成模型，提升文本生成的准确性和时效性。其核心模块包括：1）知识库构建（数据采集、预处理、向量存储）；2）检索系统（语义检索、重排序优化）；3）LLM交互层（Prompt设计、后置校验）。文中通过电商客服、医疗咨询、金融报告等案例，结合代码示例（如Sentence-BERT嵌入、FAISS检索、GPT-2生成），展示

2048 AI社区

所有评论(0)

查看更多评论

xuebodx

@xuebodx

已为社区贡献8条内容