什么是 vLLM

vLLM 是一个高性能的大型语言模型推理库,支持多种模型格式和后端加速,适用于大规模语言模型的推理服务部署。

最初 vLLM 是在加州大学伯克利分校的天空计算实验室 (Sky Computing Lab) 开发的,如今已发展成为一个由学术界和工业界共同贡献的社区驱动项目。

什么是 Dify

Dify是一个开源的 LLM 应用开发平台,提供从 Agent 构建到 AI workflow 编排、RAG 检索、模型管理等能力,轻松构建和运营 AI 应用。

Dify 提供五种应用类型:

  1. 聊天助手:基于 LLM 构建对话式交互的助手。
  2. 文本生成应用:面向文本生成类任务的助手,例如撰写故事、文本分类、翻译等。
  3. Agent:能够分解任务、推理思考、调用工具的对话式智能助手。
  4. 对话流(Chatflow):适用于设计复杂流程的多轮对话场景,支持记忆功能并能进行动态应用编排。
  5. 工作流(Workflow):适用于自动化、批处理等单轮生成类任务的场景的应用编排方式,单向生成结果。

部署 vLLM

安装 GPU 驱动

我们先安装 GPU 驱动,登录 NVIDIA 驱动下载 页面,输入搜索条件查找驱动,我这使用的是显卡是 Tesla T4 。

点击 查找 按钮,显示如下图搜索到的驱动

下载驱动

安装驱动

# 下载驱动 

wget 'https://cn.download.nvidia.com/tesla/575.57.08/NVIDIA-Linux-x86_64-575.57.08.run'

# 给安装包添加执行权限

chmod +x NVIDIA-Linux-x86_64-575.57.08.run

# 安装驱动

sh NVIDIA-Linux-x86_64-575.57.08.run --ui=none --disable-nouveau --no-install-libglvnd --dkms --no-cc-version-check -s

执行命令 nvidia-smi ,查看 Tesla 驱动是否安装成功,显示如下界面表示 Tesla 驱动安装成功。

Tesla 驱动安装完成后,Persistence-M 默认为关闭(off)状态,Tesla驱动在开启Persistence-M属性状态下性能更稳定。为了业务更稳定地进行,建议开启 Persistence-M 属性。

可以执行以下命令开启

# username 为当前系统使用的用户名

nvidia-persistenced --user root  

重新执行命令 nvidia-smi ,可以看到 Persistence-M 为开启(on)状态。

这种配置方式如果服务重启,则会导致Persistence-M开启(on)状态失效。如果希望永久生效,需要按照如下方式配置:

Tesla 驱动安装成功后,Nvidia 会安装一些示例脚本到/usr/share/doc/NVIDIA_GLX-1.0/samples/nvidia-persistenced-init.tar.bz2路径下。

cd  /usr/share/doc/NVIDIA_GLX-1.0/samples/

tar xvf nvidia-persistenced-init.tar.bz2

cd  nvidia-persistenced-init

sh install.sh  -u nvidia-persistenced -g nvidia-persistenced systemd 

执行以下命令,查看 NVIDIA Persistence Daemon 是否正常运行。

systemctl status nvidia-persistenced

准备 Python 环境

vLLM 运行需要 Python 环境,为了管理服务器上不同版本的 Python,建议使用 uv 工具,uv 是一个非常快速的Python环境管理器。

安装 uv

pip install uv

或者

curl -LsSf https://astral.sh/uv/install.sh | sh 

安装 vLLM

uv venv --python 3.12 --seed

source .venv/bin/activate

uv pip install vllm --torch-backend=auto

执行以下命令验证 vLLM 是否准备就绪

uv run --with vllm vllm --help

下载 通义千问 大模型

通义千问-7B(Qwen-7B) 是阿里云研发的通义千问大模型系列的70亿参数规模的模型。Qwen-7B 是基于Transformer 的大语言模型, 在超大规模的预训练数据上进行训练得到。预训练数据类型多样,覆盖广泛,包括大量网络文本、专业书籍、代码等。

# 安装 Git 和 Git LFS(Large File Support)插件  

yum install git git-lfs 

mkdir -p /data/models 

cd /data/models 

# 将 ModelScope上的 Qwen-7B-Chat-Int8 仓库克隆到本地。

GIT_LFS_SKIP_SMUDGE=1 git clone https://www.modelscope.cn/qwen/Qwen-7B-Chat-Int8.git

cd Qwen-7B-Chat-Int8

# 下载 LFS 管理的大文件,模型下载后大概有 18G 

git lfs pull

启动推理服务

执行以下命令启动服务

python3 -m vllm.entrypoints.openai.api_server \

--model /data/models/Qwen-7B-Chat-Int8 \

--trust-remote-code \

--served-model-name qwen-chat \

--gpu-memory-utilization 0.95 \

--max-model-len 2048

启动日志

INFO 09-11 21:31:54 [__init__.py:241] Automatically detected platform cuda.

(APIServer pid=17453) INFO 09-11 21:31:55 [api_server.py:1805] vLLM API server version 0.10.1.1

(APIServer pid=17453) INFO 09-11 21:31:55 [utils.py:326] non-default args: {'model': '/data/models/Qwen-7B-Chat-Int8', 'trust_remote_code': True, 'max_model_len': 2048, 'served_model_name': ['qwen-chat'], 'gpu_memory_utilization': 0.95}

......

INFO 09-11 21:32:20 [worker.py:295] the current vLLM instance can use total_gpu_memory (14.56GiB) x gpu_memory_utilization (0.95) = 13.84GiB

INFO 09-11 21:32:20 [worker.py:295] model weights take 8.53GiB; non_torch_memory takes 0.03GiB; PyTorch activation peak memory takes 1.40GiB; the rest of the memory reserved for KV Cache is 3.87GiB.

......

(APIServer pid=17453) INFO 09-11 21:32:51 [api_server.py:1880] Starting vLLM API server 0 on http://0.0.0.0:8000

(APIServer pid=17453) INFO 09-11 21:32:51 [launcher.py:36] Available routes are:

......

(APIServer pid=17453) INFO:     Started server process [17453]

(APIServer pid=17453) INFO:     Waiting for application startup.

(APIServer pid=17453) INFO:     Application startup complete.

通过日志可以看到应用启动成功,在日志中可以看到 GPU 显存的分配, model weights take 8.53GiB; non_torch_memory takes 0.03GiB; PyTorch activation peak memory takes 1.40GiB; the rest of the memory reserved for KV Cache is 3.87GiB.

我的 Tesla T4 GPU 一共有 15G 内存,在启动时配置了安全参数gpu_memory_utilization=0.95 ,因此最终可用内存大概是 13.84G ( total_gpu_memory (14.56GiB) x gpu_memory_utilization (0.95) = 13.84GiB),这 13.84G 的可用内存具体分配明细如下:

  1. 模型权重 (Model Weights):

  2. 占用: 8.53 GiB

  3. 说明: 大语言模型通义千问(Qwen-7B-Chat-Int8)本身被加载到 GPU 上所占用的空间。这是固定的开销,只要模型加载,这部分内存就会被占用。

  4. 非 PyTorch 内存 (non_torch_memory):

  5. 占用: 0.03 GiB (~30 MB)

  6. 说明: 这是被其他非 PyTorch 框架的库或系统组件(如 CUDA context、vLLM 自身的数据结构等)所占用的小额内存。

  7. PyTorch 激活峰值内存 (PyTorch activation peak memory):

  8. 占用: 1.40 GiB

  9. 说明: 这是在处理请求时 PyTorch 进行张量计算所产生的中间临时变量(称为激活 Activation)所消耗的内存。这个值是一个“峰值”估计,vLLM 会预留出这部分空间以确保计算过程绝不会因内存不足而中断。

  10. 预留用于 KV 缓存的内存 (Reserved for KV Cache):

  11. 占用: 3.87 GiB

  12. 说明: 这是最关键的部分! 这部分内存专门用于存储每个请求的键值对缓存 (Key-Value Cache)。KV Cache 的大小直接决定了模型能同时处理多少并发请求(吞吐量)以及每个请求能支持的最大序列长度,剩余内存绝大部分都分配给了这里。

执行命令 nvidia-smi 来验证内存的利用率。

推理服务部署成功后我们可以做一个简单的测试, 发送如下请求

curl -X POST "http://127.0.01:8000/v1/chat/completions" \

-H "Content-Type: application/json" \

-d '{  

  "model": "qwen-chat",  

  "messages": [{"role": "user", "content": "你可以做什么事情"}]  

}'  

返回信息如下:

{"id":"chatcmpl-2a6869efcf564d29a4a9d07f4b9e6d88","object":"chat.completion","created":1757598924,"model":"qwen-chat","choices":[{"index":0,"message":{"role":"assistant","content":"呢?\n\nassistant1. 帮助人们解决问题:我可以根据用户提出的问题,提供相关的解答和建议。\n\n2. 生成文本:我可以根据用户给出的关键词或主题,生成相关的文章、故事、诗歌等文本内容。\n\n3. 智能聊天:我可以进行自然语言对话,与用户进行交流和互动。\n\n4. 翻译:我可以将一种语言翻译成另一种语言,帮助人们跨越语言障碍。\n\n5. 识别图像:我可以分析图片中的物体、场景、人物等信息,并进行描述或分类。\n\n6. 分析情绪:我可以分析用户的语气、情感、态度等,以便更好地理解和回应用户的需求。\n\n7. 推荐系统:我可以根据用户的历史行为、兴趣爱好等数据,推荐相关的产品、服务、内容等。\n\n8. 创作音乐、艺术作品:我可以根据用户提供的主题、风格、乐器等要素,创作出独特的音乐、艺术作品。 \n\n9. 教育教学:我可以为学生提供个性化的学习计划和指导,帮助他们提高学习成绩。\n\n10. 环境监测:我可以实时监测环境参数,如温度、湿度、空气质量等,提供及时准确的数据报告。 \n\n这些都是我可以做的事情,但我也需要不断学习和改进,以适应更广泛的应用场景和需求。<|im_end|>\n","refusal":null,"annotations":null,"audio":null,"function_call":null,"tool_calls":[],"reasoning_content":null},"logprobs":null,"finish_reason":"stop","stop_reason":151643}],"service_tier":null,"system_fingerprint":null,"usage":{"prompt_tokens":3,"total_tokens":277,"completion_tokens":274,"prompt_tokens_details":null},"prompt_logprobs":null,"kv_transfer_params":null}

部署 Dify

安装 Docker

dnf -y install dnf-plugins-core

dnf config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo

dnf install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

systemctl enable --now docker

安装 Dify

cd /data 

git clone https://github.com/langgenius/dify.git

cd dify

cd docker

cp .env.example .env

docker compose up -d

配置 Dify

Dify 启动成功后会监听本地 80 端口,访问 http://server-ip/install 配置登录信息

登录成功后 添加 LLM ,点击 右上角 用户图标,选择 “设置”,点击 “模型供应商”,找到 vllm ,点击安装

添加模型参数

验证

接下来创建一个聊天机器人,验证模型是否正常运行,在主页点击工作室,创建空白应用

选择 Charflow 对话工作流,输入应用名称,点击创建

Dify 支持自定义工作流,我们这里用默认即可,点击右上角发布中的运行按钮

点击运行按钮后会打开一个新的聊天窗口, 就可以开始聊天了。

至此就可以验证我们部署的 vLLM 、通义千问大模型和 Dify 都能正常运行了。

想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2025 年 AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享

👇👇扫码免费领取全部内容👇👇

一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI

1. 100+本大模型方向电子书

在这里插入图片描述

2. 26 份行业研究报告:覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:

  • 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
  • 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
  • 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
  • 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT:听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:

在这里插入图片描述

  • 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
  • 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
  • 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
  • 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!

1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析

2. 102 道 AI 大模型真题:直击大模型核心考点

针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:

3. 97 道 LLMs 真题:聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:


三、路线必明: AI 大模型学习路线图,1 张图理清核心内容

刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!

在这里插入图片描述

路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。

img

L1阶段:启航篇丨极速破界AI新时代

L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。

img

L2阶段:攻坚篇丨RAG开发实战工坊

L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

img

L3阶段:跃迁篇丨Agent智能体架构设计

L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。

img

L4阶段:精进篇丨模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

img

L5阶段:专题集丨特训篇 【录播课】

img
四、资料领取:全套内容免费抱走,学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐