程序员实战：五大主流大模型推理部署框架全解析（附代码）

摘要：本文对比了vLLM、SGLang、TensorRT-LLM、ollama、XInference五大主流大模型推理框架的核心特性与适用场景，提供实战部署代码与性能优化技巧。vLLM适合高并发API服务，SGLang优化交互式对话，TensorRT-LLM追求极致性能，ollama简化本地调试，XInference支持多模型混合部署。通过量化、动态批处理、算子优化等方法可显著提升推理效率。建议

榴莲女士的勺子

338人浏览 · 2025-09-18 15:38:13

榴莲女士的勺子 · 2025-09-18 15:38:13 发布

大模型从训练到落地，推理部署是决定 “能否用、好不好用” 的关键环节。面对 vLLM、SGLang、TensorRT-LLM、ollama、XInference 等主流框架，程序员常陷入 “选型难、部署繁、优化懵” 的困境。本文从实战角度出发，对比各框架核心优势，提供可直接运行的部署代码，并拆解性能优化关键技巧，助你快速掌握大模型推理部署全流程。

框架选型：核心特性与适用场景解析

不同推理框架的设计理念差异显著，有的聚焦极致性能，有的侧重易用性，有的主打多框架兼容。精准选型需先明确自身需求（如显存限制、推理速度、部署复杂度），以下是五大框架的核心特性对比与适配场景分析。

1. 各框架核心优势速览

框架	核心技术	显存效率	推理速度	易用性	适用场景
vLLM	PagedAttention 内存管理	高	极快	中	高并发场景（API 服务、批量推理）
SGLang	动态批处理 + 指令优化	中高	极快	高	交互式推理（对话机器人、实时问答）
TensorRT-LLM	TensorRT 算子优化 + 量化	高	最快	低	极致性能需求（GPU 密集型部署、生产环境）
ollama	轻量封装 + 本地部署	中	中	极高	本地开发、单机轻量部署（开发者调试）
XInference	多框架兼容 + 分布式部署	中高	中快	中高	多模型混用、分布式推理（企业级混合部署）

2. 选型决策逻辑

优先性能与并发：若需支撑高 QPS 的 API 服务（如开源大模型 API 平台），优先选 vLLM（PagedAttention 对长序列并发友好）或 TensorRT-LLM（极致 GPU 利用率）；

优先开发效率：本地调试、快速验证模型，直接用 ollama（一行命令启动）；交互式对话场景首选 SGLang（动态批处理降低响应延迟）；

优先兼容性：企业内同时部署多种模型（如 LLaMA2、ChatGLM、Mistral），XInference 支持多框架统一接口，减少适配成本。

快速部署：五大框架实战代码示例

部署大模型的核心目标是 “快速跑通、稳定输出”，以下针对各框架提供最简化的部署代码，覆盖模型加载、推理调用、服务启动全流程，基于开源模型 Llama-2-7b-chat 演示（需提前准备模型权重）。

1. vLLM：高并发推理部署

vLLM 通过 PagedAttention 技术优化显存管理，支持高并发请求，适合构建大模型 API 服务。

# 1. 安装依赖

# pip install vllm==0.4.0 torch==2.1.0 transformers==4.35.2

from vllm import LLM, SamplingParams

from vllm.entrypoints.openai import api_server

# 2. 初始化LLM（本地模型权重路径）

llm = LLM(

model="path/to/llama-2-7b-chat", # 本地模型路径

tensor_parallel_size=1, # 显卡数量（多卡部署需调整）

gpu_memory_utilization=0.9, # 显存占用比例（建议0.8-0.9）

max_num_batched_tokens=4096 # 单次批处理最大token数

)

# 3. 配置采样参数

sampling_params = SamplingParams(

temperature=0.7, # 随机性

top_p=0.9,

max_tokens=512 # 最大生成token数

)

# 4. 单条推理

prompts = ["请用Python写一个快速排序函数，并添加详细注释"]

outputs = llm.generate(prompts, sampling_params)

for output in outputs:

print(f"输入：{output.prompt}")

print(f"输出：{output.outputs[0].text}\n")

# 5. 启动OpenAI兼容API服务（支持高并发调用）

# 命令行启动：python -m vllm.entrypoints.openai.api_server --model path/to/llama-2-7b-chat --tensor-parallel-size 1

# 调用示例：curl http://localhost:8000/v1/completions -H "Content-Type: application/json" -d '{"model":"llama-2-7b-chat","prompt":"Hello","max_tokens":50}'

2. SGLang：交互式推理优化

SGLang 针对对话场景优化，支持动态批处理和指令级优化，响应速度比传统框架快 3-5 倍。

# 1. 安装依赖

# pip install sglang==0.1.8 torch==2.1.0

from sglang import function, system, user, assistant, Runtime

# 2. 初始化运行时（本地模型）

runtime = Runtime(

model_path="path/to/llama-2-7b-chat",

tensor_parallel_size=1,

max_context_window_size=4096

)

# 3. 定义对话函数（SGLang特色：指令式编程）

@function

def chat_with_bot(user_query: str):

# 构建对话历史（system/user/assistant角色）

prompt = system("你是一个Python编程助手，提供简洁准确的代码解答") + \

user(user_query) + \

assistant() # 占位符，用于生成回复

# 生成回复（启用动态批处理）

output = runtime.generate(

prompt,

max_new_tokens=512,

temperature=0.6,

top_p=0.9,

stream=False # 关闭流式输出（流式输出设为True）

)

return output["text"]

# 4. 交互式调用

while True:

user_input = input("请输入问题（输入'退出'结束）：")

if user_input == "退出":

break

response = chat_with_bot(user_input)

print(f"AI回复：{response}\n")

# 5. 启动HTTP服务（支持多用户并发）

# 命令行启动：sglang start --model path/to/llama-2-7b-chat --port 8000

# 调用示例：curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{"model":"llama-2-7b-chat","messages":[{"role":"user","content":"Hello"}]}'

3. TensorRT-LLM：极致性能优化

TensorRT-LLM 通过 NVIDIATensorRT 工具链优化模型算子，支持量化（INT4/FP8），适合 GPU 密集型生产环境。

# 1. 安装依赖（需先安装NVIDIA TensorRT）

# pip install tensorrt-llm==0.9.0 torch==2.1.0 transformers==4.35.2

import tensorrt_llm

from tensorrt_llm import LLM as TRTLLM

from tensorrt_llm.runtime import GenerationSession

# 2. 构建TensorRT引擎（仅首次运行需要，耗时较长）

def build_trt_engine(model_path, engine_path="llama2-7b-chat-trt-engine"):

# 配置构建参数

builder = tensorrt_llm.Builder()

builder_config = builder.create_builder_config(

max_batch_size=8, # 最大批处理数

max_seq_len=4096,

precision_mode=tensorrt_llm.PrecisionMode.FP16 # 精度（FP16/INT8/FP8）

)

# 加载模型并构建引擎

model = tensorrt_llm.models.LlamaForCausalLM.from_pretrained(model_path)

engine = builder.build_engine(model, builder_config)

# 保存引擎（下次直接加载，无需重新构建）

with open(engine_path, "wb") as f:

f.write(engine.serialize())

return engine_path

# 3. 加载引擎并推理

engine_path = build_trt_engine("path/to/llama-2-7b-chat")

llm = TRTLLM(engine_path)

session = GenerationSession(llm.engine, llm.tokenizer)

# 4. 生成回复

prompt = "解释Transformer模型中的自注意力机制"

output = session.generate(

prompt,

max_new_tokens=512,

temperature=0.7,

top_p=0.9

)

print(f"输入：{prompt}")

print(f"输出：{output[0]['text']}")

4. ollama：本地轻量部署

ollama 封装了模型下载、依赖管理、服务启动全流程，一行命令即可运行大模型，适合开发者本地调试。

# 1. 安装ollama（官网：https://ollama.com/）

# 2. 命令行启动模型（自动下载权重，支持Llama2、Mistral等）

ollama run llama2:7b-chat # 启动Llama2-7b-chat模型

# 3. 交互式对话（命令行内直接输入问题）

# 输入：请写一个Python链表反转函数

# AI会直接输出代码及解释

# 4. 启动API服务（支持外部调用）

ollama serve # 启动服务，默认端口11434

# 5. API调用示例（Python）

import requests

import json

def ollama_chat(prompt):

url = "http://localhost:11434/api/chat"

payload = {

"model": "llama2:7b-chat",

"messages": [{"role": "user", "content": prompt}],

"stream": False

}

headers = {"Content-Type": "application/json"}

response = requests.post(url, data=json.dumps(payload), headers=headers)

return response.json()["message"]["content"]

# 调用示例

response = ollama_chat("请解释什么是大模型量化")

print(response)

5. XInference：多框架兼容部署

XInference 支持多种推理后端（vLLM/SGLang/TensorRT-LLM），提供统一 API，适合企业级多模型混合部署。

# 1. 安装依赖

# pip install xinference==0.14.0

import xinference

from xinference.client import Client

# 2. 启动本地模型服务（命令行）

# xinference -H 0.0.0.0 -P 9997

# 3. 连接客户端

client = Client("http://localhost:9997")

# 4. 部署模型（指定推理后端为vLLM）

model_uid = client.launch_model(

model_name="llama-2-7b-chat",

model_format="ggmlv3", # 模型格式（ggmlv3/pytorch等）

backend="vllm", # 推理后端（vllm/sglang/tensorrt_llm）

max_context_length=4096

)

# 5. 生成回复

model = client.get_model(model_uid)

response = model.chat(

prompt="请用Markdown格式写一篇关于大模型推理优化的短文",

temperature=0.7,

max_tokens=512

)

print(response["content"])

# 6. 停止模型服务

client.terminate_model(model_uid)

性能优化：从 “能跑” 到 “跑好” 的关键技巧

部署大模型不仅要 “能跑通”，更要 “跑得快、省资源”。针对不同框架的核心瓶颈，以下优化技巧可大幅提升推理性能，适配生产环境需求。

1. 显存优化：降低内存占用

量化推理：TensorRT-LLM 支持 INT4/FP8 量化，vLLM/SGLang 通过load_in_4bit=True启用量化，显存占用可降低 50%-70%。

# vLLM量化示例

llm = LLM(

model="path/to/llama-2-7b-chat",

load_in_4bit=True, # 启用4bit量化

bnb_4bit_quant_type="nf4", # 量化类型（nf4/fp4）

bnb_4bit_compute_dtype=torch.float16

)

模型并行：多卡部署时，通过tensor_parallel_size分配模型层到不同 GPU，避免单卡显存溢出。

# SGLang多卡部署

runtime = Runtime(

model_path="path/to/llama-2-7b-chat",

tensor_parallel_size=2 # 使用2张GPU

)

2. 速度优化：提升推理吞吐量

批处理优化：vLLM/SGLang 支持动态批处理，通过max_num_batched_tokens调整单次处理 token 数，平衡延迟与吞吐量。

# vLLM批处理配置

llm = LLM(

model="path/to/llama-2-7b-chat",

max_num_batched_tokens=8192, # 增加批处理token数（需足够显存）

max_num_seqs=32 # 最大并发序列数

)

算子优化：TensorRT-LLM 启用 Tensor Core 加速，XInference 选择最优后端（如 TensorRT-LLM 用于 NVIDIA GPU），推理速度可提升 2-3 倍。

3. 服务稳定性：适配高并发场景

请求队列：vLLM/SGLang 内置请求队列机制，通过waiting_queue_size控制排队请求数，避免服务过载。

# vLLM API服务队列配置

python -m vllm.entrypoints.openai.api_server \

--model path/to/llama-2-7b-chat \

--waiting_queue_size 100 # 最大等待队列长度

监控告警：结合 Prometheus+Grafana 监控显存占用、推理延迟、QPS 等指标，及时发现性能瓶颈。

通过以上框架选型、部署实战与优化技巧，程序员可根据自身场景（本地调试、高并发服务、极致性能）快速落地大模型推理部署。五大框架各有侧重，无需追求 “最优”，只需匹配 “最适合”—— 本地开发用 ollama，高并发用 vLLM，交互式场景用 SGLang，极致性能用 TensorRT-LLM，多模型混合用 XInference，即可高效实现大模型从实验室到生产环境的落地。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

人工智能在设备管理软件中的应用

2048 AI社区

Aloudata AIR 推出 AI 数据画布：「拖拽+对话」即可实现跨源数据加工与查询

一边，是堆积如山的数据需求工单、反复修改的 SQL 脚本、跨源查询的兼容难题、ETL 任务的运维黑洞……另一边，是业务在等报表、产品在等指标、决策在等洞察——而数据团队，还在“搬数据”。这不仅是效率问题，更是数据价值延迟兑现的系统性困局。如果有一种方式，能让数据开发像对话一样自然，像搭积木一样简单，像搜索引擎一样高效呢？Aloudata AIR 逻辑数据编织平台全新上线「AI 数据画布」功能——帮