2025年企业级AI必备！vLLM三步部署大模型：伯克利团队亲授，效率翻倍秘籍

vLLM 是一个快速且易于使用的大语言模型推理和部署库，最初由加州大学伯克利分校的 Sky Computing Lab 开发，现已发展为一个由学术界和工业界共同贡献的社区驱动项目。

Python_金钱豹

595人浏览 · 2025-09-12 22:53:09

Python_金钱豹 · 2025-09-12 22:53:09 发布

今天来介绍一下如何使用 vLLM 在本地搭建大语言模型。

vLLM 简介

核心优势：

PagedAttention + 持续批处理：内存效率提升，吞吐量最高 23 倍提升
量化支持：GPTQ、AWQ、INT4/8、FP8 等多种格式
并行计算：张量/流水线/数据/专家并行，支持多 GPU 扩展
生态兼容：HuggingFace 集成，OpenAI API 兼容，多 LoRA 支持
硬件支持：NVIDIA GPU（主要）、AMD、Intel、TPU、AWS 加速器

数据来源：https://docs.vllm.ai/en/latest/index.html [1]

相较于 Ollama 和 LM Studio，vLLM 在不同场景下各有优势：

工具	定位	适用场景	核心优势	主要限制
vLLM	高性能推理引擎	生产环境部署、高并发 API 服务	PagedAttention 内存优化、持续批处理、2.7x 吞吐量提升	仅支持 NVIDIA GPU、部署复杂、显存需求大
Ollama	轻量级本地工具	个人开发、快速原型验证、离线环境	一键安装、跨平台支持、Docker 风格命令、支持 Apple Silicon	单用户设计、性能相对较低、功能相对简单
LM Studio	可视化桌面应用	非技术用户、模型探索、教育场景	图形界面友好、内置模型市场、支持多模态、零代码体验	闭源软件、资源占用较高、定制化程度有限

环境准备

硬件： NVIDIA GPU（20GB+ 显存）、16GB+ 内存、50GB+ SSD 存储

软件： Linux/macOS/Windows、Python 3.8-3.12、CUDA 11.8+、uv/pip

测试环境： macOS 15.6、Python 3.12、UV 0.7.3 、PyTorch 2.0+、ModelScope（国内用户推荐）或 Hugging Face

项目准备

使用 uv 搭建 PyTorch 环境，可以参考官方文档：https://docs.astral.sh/uv/guides/integration/pytorch/。 [2]

01 项目初始化

## 新建项目
mkdir vllm-rag
cd vllm-rag
uv init --python 3.12
source .venv/bin/activate

## 添加核心依赖
uv add torch modelscope vllm

依赖说明：

torch: PyTorch 深度学习框架
vllm: 高性能大模型推理引擎
modelscope: 阿里云模型下载工具

初始化之后：

02 验证 PyTorch 环境

验证本地是否支持 PyTorch ，并且安装成功。

uv run test_pytorch.py

测试结果：

03 模型下载与管理

vLLM 默认从 Hugging Face 下载模型，但建议提前下载以避免运行时等待，同时便于模型版本管理。

使用 ModelScope（推荐，国内网络友好）

# model_download.py
from modelscope import snapshot_download

model_dir = snapshot_download('Qwen/Qwen3-8B', cache_dir='/Volumes/Data1/LLMs/vllm/models', revision='master')

注意：将 cache_dir 改成你的本地目录。

uv run model_download.py

等待模型下载：

vLLM 实测

使用 Qwen/Qwen3-8B 模型进行测试，预计占用 16-20GB 显存。

01 Python 代码编写

02 测试结果

思考模式结果：

输出内容如下：

Prompt: '<|im_start|>user\n给我一个关于大模型的简短介绍。<|im_end|>\n<|im_start|>assistant\n',
Response: '<think>\n好的，用户让我提供一个关于大模型的简短介绍。首先，我需要确定用户的需求是什么。他们可能是一个学生，或者对AI领域感兴趣的人，想要快速了解大模型的基本概念。也有可能是在做研究，需要简要的概述。\n\n接下来，我得考虑大模型的定义。大模型通常指的是参数量巨大的深度学习模型，比如Transformer架构，这些模型在自然语言处理、计算机视觉等领域有广泛应用。需要提到它们的规模，比如参数数量，以及训练数据量，因为这些都是关键点。\n\n然后，用户可能想知道大模型的特点。比如，它们的强大学习能力，能够处理多种任务，还有预训练和微调的概念。这些都是大模型的核心优势，应该涵盖进去。\n\n还要注意用户可能的深层需求。他们可能想了解大模型的实际应用，比如聊天机器人、文本生成、图像识别等。所以需要举几个例子，让介绍更具体。\n\n另外，用户可能对大模型的挑战感兴趣，比如计算资源需求高、训练成本大，以及可能的伦理问题。不过因为要求是简短介绍，这部分可能需要简要提及，避免过于深入。\n\n需要确保语言简洁明了，避免技术术语过多，让不同背景的读者都能理解。同时，保持结构清晰，分点或分段介绍，但用户要求的是简短，所以可能需要整合成一段流畅的文字。\n\n最后，检查是否有遗漏的重要信息，比如大模型的发展趋势，比如多模态模型、自监督学习等，但可能因为篇幅限制，只能简要带过。确保整体内容准确，没有错误信息，比如参数量的范围，训练数据量等，需要准确的数据支持。\n</think>\n\n大模型（Large Language Models, LLMs）是基于深度学习的参数量巨大的人工智能模型，通常包含数十亿甚至数万亿个参数。它们通过海量文本数据训练，具备强大的语言理解、生成和推理能力，可完成文本生成、问答、代码编写、多语言翻译等复杂任务。典型代表如GPT、BERT、PaLM等。大模型的核心优势在于其泛化能力，能通过预训练和微调适应多种应用场景，但同时也面临算力消耗高、训练成本大等挑战。'

非思考模式结果：

将 enable_thinking=False 并调整推理参数，再次验证。

输出内容如下：

Prompt: '<|im_start|>user\n给我一个关于大模型的简短介绍。<|im_end|>\n<|im_start|>assistant\n<think>\n\n</think>\n\n',
Response: '大模型（Large Model）是指参数量巨大、具有强大语言理解和生成能力的深度学习模型，通常基于Transformer架构。它们能够处理复杂的自然语言任务，如文本生成、翻译、问答、代码编写等。大模型通过海量数据训练，具备强大的泛化能力和上下文理解能力，广泛应用于人工智能的多个领域，如智能客服、内容创作、数据分析等。代表模型包括GPT、BERT、Ernie Bot等。'

vLLM 搭建类 OpenAI 服务

使用如下命令进行启动：

VLLM_USE_MODELSCOPE=true vllm serve \
/Volumes/Data1/LLMs/vllm/models/Qwen/Qwen3-8B \
--served-model-name Qwen3-8B \
--max_model_len 2048 \
--reasoning-parser deepseek_r1

启动结果：

模型信息：

curl http://localhost:8000/v1/models

{
"object":"list",
"data":[
{
"id":"Qwen3-8B",
"object":"model",
"created":1755695146,
"owned_by":"vllm",
"root":"/Volumes/Data1/LLMs/vllm/models/Qwen/Qwen3-8B",
"parent":null,
"max_model_len":2048,
"permission":[
{
"id":"modelperm-3194bd05ecd64efeb188c172ae14804b",
"object":"model_permission",
"created":1755695146,
"allow_create_engine":false,
"allow_sampling":true,
"allow_logprobs":true,
"allow_search_indices":false,
"allow_view":true,
"allow_fine_tuning":false,
"organization":"*",
"group":null,
"is_blocking":false
}
]
}
]
}

简单问题测试：

curl --location 'http://localhost:8000/v1/completions' \
--header 'Content-Type: application/json' \
--data '{
        "model": "Qwen3-8B",
        "prompt": "/no_think 3的阶乘是多少？",
        "max_tokens": 2000,
        "temperature": 0
    }'

输出结果：

{
"id":"cmpl-fb6ecf0c554d4ad984cabc9e8a7fc53a",
  "object":"text_completion",
  "created":1757429422,
  "model":"Qwen3-8B",
  "choices":[
{
"index":0,
"text":" 3的阶乘是3×2×1=6。所以，3的阶乘是6。",
"logprobs":null,
"finish_reason":"stop",
"stop_reason":null,
"prompt_logprobs":null
}
  ],
  "service_tier":null,
  "system_fingerprint":null,
  "usage":{
"prompt_tokens":10,
"total_tokens":34,
"completion_tokens":24,
"prompt_tokens_details":null
  },
  "kv_transfer_params":null
}

总结

vLLM 作为高性能的大语言模型推理框架，在生产环境和高并发场景下表现出色。通过 PagedAttention 等创新技术，它能够显著提升推理吞吐量和内存利用效率。

选择建议：

个人学习和快速验证：推荐使用 Ollama，简单易用
非技术用户和模型探索：推荐使用 LM Studio，界面友好
生产部署和高性能需求：推荐使用 vLLM，性能卓越

随着本地大模型技术的不断发展，这些工具都在各自的定位上持续优化，为不同需求的用户提供了丰富的选择。

引用链接

[1]: https://docs.vllm.ai/en/latest/index.html
升推理吞吐量和内存利用效率。

选择建议：

个人学习和快速验证：推荐使用 Ollama，简单易用
非技术用户和模型探索：推荐使用 LM Studio，界面友好
生产部署和高性能需求：推荐使用 vLLM，性能卓越

随着本地大模型技术的不断发展，这些工具都在各自的定位上持续优化，为不同需求的用户提供了丰富的选择。

如何学习大模型 AI ？

我国在AI大模型领域面临人才短缺，数量与质量均落后于发达国家。2023年，人才缺口已超百万，凸显培养不足。随着Al技术飞速发展，预计到2025年，这一缺口将急剧扩大至400万，严重制约我国Al产业的创新步伐。加强人才培养，优化教育体系，国际合作并进，是破解困局、推动AI发展的关键。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

2025最新大模型学习路线

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛，没有明确的学习路线可能会导致新人感到迷茫，不知道应该专注于哪些内容。

对于从来没有接触过AI大模型的同学，我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

在这里插入图片描述

针对以上大模型的学习路线我们也整理了对应的学习视频教程，和配套的学习资料。

大模型经典PDF书籍

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路！

在这里插入图片描述

配套大模型项目实战

所有视频教程所涉及的实战项目和项目源码等
在这里插入图片描述

博主介绍＋AI项目案例集锦

MoPaaS专注于Al技术能力建设与应用场景开发，与智学优课联合孵化，培养适合未来发展需求的技术性人才和应用型领袖。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

为什么要学习大模型？

2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

在这里插入图片描述

适合人群

在校学生：包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础，有志于深入AGI大模型行业，希望开展相关的研究和开发工作。
IT行业从业人员：包括在职或失业者，涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验，至少1年以上的编程工作经验，对大模型技术感兴趣或有业务需求，希望通过课程提升自身在IT领域的竞争力。
IT管理及技术研究领域人员：包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势，主导技术创新，推动大模型技术在企业业务中的应用与改造。
传统AI从业人员：包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作，现需要快速补充大模型技术能力，获得大模型训练微调的实操技能，以适应新的技术发展趋势。

课程精彩瞬间

大模型核心原理与Prompt：掌握大语言模型的核心知识，了解行业应用与趋势；熟练Python编程，提升提示工程技能，为Al应用开发打下坚实基础。

RAG应用开发工程：掌握RAG应用开发全流程，理解前沿技术，提升商业化分析与优化能力，通过实战项目加深理解与应用。

Agent应用架构进阶实践：掌握大模型Agent技术的核心原理与实践应用，能够独立完成Agent系统的设计与开发，提升多智能体协同与复杂任务处理的能力，为AI产品的创新与优化提供有力支持。

模型微调与私有化大模型：掌握大模型微调与私有化部署技能，提升模型优化与部署能力，为大模型项目落地打下坚实基础。

顶尖师资，深耕AI大模型前沿技术

实战专家亲授，让你少走弯路
在这里插入图片描述

一对一学习规划，职业生涯指导

真实商业项目实训

大厂绿色直通车

人才库优秀学员参与真实商业项目实训

以商业交付标准作为学习标准，具备真实大模型项目实践操作经验可写入简历，支持项目背调

大厂绿色直通车，冲击行业高薪岗位

文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

一句话画出思维导图！GPT-5、Gemini 2.5 Pro、Claude 4、grok4等等主流AI，国内直接使用

2048 AI社区

Qgis组综述（9.7-9.14）

2048 AI社区

Golang并发编程及其高级特性

Go语言的并发编程模型以轻量级Goroutine和CSP通信机制为核心，支持高并发、低开销的并发任务调度与协调。通过M:N调度模型，成千上万的Goroutine可在少量OS线程上高效运行。Channel用于Goroutine间通信与同步，避免数据竞争，提升程序安全性。此外，Go还提供`sync.Mutex`和`WaitGroup`等同步原语，简化并发控制。相比Java线程，Goroutine内存占