保姆级攻略-手把手带你完成大模型本地部署

本文将详细拆解两种大模型部署方案：适合个人 / 开发者的轻量化部署（含模型量化），以及支持企业级高并发的专业部署，附核心代码和操作步骤，新手也能轻松上手！

人工智能小豪

564人浏览 · 2025-12-04 14:46:25

人工智能小豪 · 2025-12-04 14:46:25 发布

在 AI 大模型应用日益普及的今天，很多个人爱好者和开发者都希望将大模型部署在本地环境：这样既可以避免网络依赖，又能保障数据隐私安全。

一、轻量化部署方案（本地部署 + 量化）

核心目标

以最低硬件开销，在个人电脑等消费级设备上运行开源大模型，适用于快速原型验证、个人开发测试等场景。

准备工作

硬件要求：建议至少 16GB 内存（8B 模型量化后可运行），有独立显卡（NVIDIA）更佳
软件依赖：Git、Python 3.8+、pip、Git LFS（大文件下载工具）、Ollama

步骤 1：模型准备（下载开源大模型）

首先需要下载开源大模型文件，推荐从 Hugging Face 或 ModelScope 官网获取，这里以 ModelScope 为例下载 Meta-Llama-3-8B-Instruct ：

# 确保Git LFS已安装（大文件下载必备）
git lfs install
# 命令行克隆模型仓库
git clone https://www.modelscope.cn/LLM-Research/Meta-Llama-3-8B-Instruct.git

小贴士：如果下载速度慢，可手动在官网下载模型文件后，移动到指定目录（如./pretrained_model/）

步骤 2：模型验证（确保模型可正常运行）

下载完成后，通过 Python 代码验证模型是否能正常加载和生成文本：

import transformers
import torch
# 切换为下载的模型文件目录, 这里的demo是Llama-3-8B-Instruct
# 如果是其他模型，比如qwen，chatglm，请使用其对应的官方demo
model_id = "./pretrained_model/Meta-Llama-3-8B-Instruct"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
{"role": "user", "content": "Who are you?"},
]
prompt = pipeline.tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
terminators = [
pipeline.tokenizer.eos_token_id,
pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = pipeline(
prompt,
max_new_tokens=256,
eos_token_id=terminators,
do_sample=True,
temperature=0.6,
top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])

如果运行后能正常输出海盗风格的回复，说明模型验证成功！

步骤 3：安装量化工具（llama.cpp）

为了降低硬件资源占用，需要对模型进行量化（将高精度模型转换为低精度，如 4bit/8bit）。llama.cpp 是开源的高效量化工具，安装步骤如下：

## 依次执行以下命令
git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp/gguf-py
pip install --editable .
## 编译（以下部分可以不执行，因为可以只使用python代码执行量化操作）
cd ..
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release

步骤 4：模型量化（转换为 GGUF 格式）

量化是轻量化部署的核心步骤，可根据硬件性能选择不同量化级别。这里提供两种量化方式：

方式 1：Python 脚本量化（推荐新手）

# 1. 不量化（保留原始精度，fp16格式）
python convert_hf_to_gguf.py /path/your-model-path
# 2. 8bit量化（平衡性能和效果）
python convert_hf_to_gguf.py ./Meta-Llama-3-8B-Instruct \
--outtype q8_0 \
--verbose \
--outfile Meta-Llama-3-8B-Instruct-q8.gguf
# 3. 4bit量化（极致轻量化，适合低配置设备）
python convert_hf_to_gguf.py ./Meta-Llama-3-8B-Instruct \
--outtype q4_k_m \
--verbose \
--outfile Meta-Llama-3-8B-Instruct-q4.gguf

–outtype是输出类型，代表含义：

q2_k：特定张量（Tensor）采用较高的精度设置，而其他的则保持基础级别。
q3_k_l、q3_k_m、q3_k_s：这些变体在不同张量上使用不同级别的精度，从而达到性能和效率的平衡。
q4_0：这是最初的量化方案，使用 4 位精度。
q4_1 和 q4_k_m、q4_k_s：这些提供了不同程度的准确性和推理速度，适合需要平衡资源使用的场景。
q5_0、q5_1、q5_k_m、q5_k_s：这些版本在保证更高准确度的同时，会使用更多的资源并且推理速度较慢。
q6_k 和 q8_0：这些提供了最高的精度，但是因为高资源消耗和慢速度，可能不适合所有用户。
fp16 和 f32: 不量化，保留原始精度。

方式 2：编译后命令行量化（性能更优）

如果已编译 llama.cpp，可使用命令行量化：

./llama.cpp/build/bin/llama-quantize \
./Meta-Llama-3-8B-Instruct/Meta-Llama-3-8B-Instruct-F16.gguf \
./Meta-Llama-3-8B-Instruct/Meta-Llama-3-8B-Instruct-Q4.gguf \
Q4_K_M  # 量化级别（4bit用Q4_K_M，8bit用Q8_K_M）

步骤 5：Ollama 部署（简化部署和调用）

Ollama 是一款轻量级大模型部署工具，支持一键启动模型服务，还能自定义配置：

（1）安装 Ollama

# Linux 安装
curl -fsSL https://ollama.com/install.sh | sh
# Windows访问 ollama 官网下载 .exe 文件（https://ollama.com/）

（2）创建 ModelFile（自定义模型配置）

我们可以通过 ollama show 命令获取 ModelFile 的模板内容，比如：

# 查看正在运行的llama3：8b的模型文件
ollama show --modelfile llama3:8b

新建 ModelFile 文件，写入模型文件路径和获得的模板内容（根据量化后的模型路径修改）：

# 指定量化后的模型文件路径
FROM ./Meta-Llama-3-8B-Instruct-q8.gguf
# set the temperature to 0.7 [higher is more creative, lower is more coherent]
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER repeat_penalty 1.05
TEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
{{ .Response }}<|im_end|>"""
# set the system message
SYSTEM """
You are a helpful assistant.
"""

（3）创建并运行自定义模型

# 创建自定义模型（命名为llama3_q8）
ollama create llama3_q8 --file ./ModelFile
# 运行模型（交互式对话）
ollama run llama3_q8

步骤 6：Ollama 并发配置（支持多用户访问）

默认配置仅支持本地访问，如需局域网共享或高并发，需修改配置：

方式 1：修改系统服务配置（推荐）

运行以下命令进入配置文件：

vim /etc/systemd/system/ollama.service

在文件末尾添加以下内容（支持局域网访问和并发设置）：

# 局域网内可以访问API, 添加以下内容
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"
# （2）添加以下内容，保存后退出
[Service]
Environment="OLLAMA_NUM_PARALLEL=4" #并行处理请求的数量
Environment="OLLAMA_MAX_LOADED_MODELS=4" #同时加载的模型数量

重新加载 systemctl 并重新启动 ollama：

sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama
sudo systemctl status ollama
# sudo systemctl restart ollama
ollama serve

方式 2：手动设置环境变量

通过以下命令：

vim ~/.bashrc

将以下内容添加到 ~/.bashrc 文件的末尾：

export OLLAMA_HOST=0.0.0.0:12123
export OLLAMA_ORIGINS=*
export OLLAMA_NUM_PARALLEL=4
export OLLAMA_MAX_LOADED_MODELS=4

激活环境变量：

source ~/.bashrc
nohup ollama serve &

步骤 7：Ollama 接口调用（Python 代码）

部署完成后，可通过 Python 代码调用模型服务：

from ollama import Client
from typing import Union
client = Client(host='http://localhost:11434')
def ollama_qa(prompt: str, model: str = "llama3_q8") -> Union[str, None]:
try:
response = client.chat(
model=model,
messages=[{"role": "user", "content": prompt}]
)
result = response["message"]["content"]
return result
except Exception as e:
print(f"调用模型时出现错误: {e}")
return None

二、企业级部署方案（支持高并发访问）

核心目标

满足企业级场景的高并发、低延迟需求，支持大规模用户同时访问，这里以 vLLM 为例（性能领先的大模型部署框架）。

准备工作

硬件要求：推荐 GPU（NVIDIA A10G/A100，显存≥24GB），服务器级 CPU 和内存
软件依赖：Python 3.10+、CUDA 11.7+、uv（Python 包管理器）

步骤 1：项目初始化

# 新建并进入项目路径
mkdir vllm-deploy  && cd vllm-deploy
uv venv --python 3.12 --seed
source .venv/bin/activate
# 安装依赖
uv pip install torch modelscope vllm

步骤 2：验证 PyTorch 环境（GPU 支持）

import torch
print(torch.backends.mps.is_available())
print(torch.backends.mps.is_built())

步骤 3：下载模型

这里以 ModelScope 的 Qwen3-8B 为例（通义千问开源模型，适合企业场景）：

# 确保 lfs 已经被正确安装
git lfs install
# 命令行git下载
git clone https://www.modelscope.cn/Qwen/Qwen3-8B.git

步骤 4：启动 vLLM 接口服务（模拟 OpenAI API）

vLLM 支持高并发推理，通过以下命令启动 API 服务：

python3 -m vllm.entrypoints.openai.api_server \
--model /path/your/Qwen3-8B/  \# 模型本地路径（替换为实际路径）
--host 0.0.0.0  \# 允许所有IP访问
--port 8848  \# 服务端口（可自定义）
--dtype auto  \# 自动选择数据类型（优化性能）
--max-num-seqs 100  \# 最大并发序列数（根据GPU显存调整）
--max-model-len 4096  \# 最大输入长度（4096 tokens）
--tensor-parallel-size 1  \# 张量并行数（多GPU时调整）
--trust-remote-code  # 允许加载模型自定义代码

关键参数解释:

参数	作用
–host 0.0.0.0	支持局域网 / 公网访问
–max-num-seqs 100	同时处理 100个并发请求
–max-model-len 4096	支持长文本输入（如论文、报告）
–tensor-parallel-size 1	单 GPU 部署（多 GPU 时设为 GPU 数量）
–trust-remote-code	适配 Qwen 等需要自定义代码的模型

步骤 5：接口调用（兼容 OpenAI API）

vLLM 支持 OpenAI API 格式，可直接使用 OpenAI SDK 调用：

# 安装OpenAI SDK
pip install openai
from openai import OpenAI
# 配置连接信息（替换为实际服务器IP）
openai_api_key = "EMPTY"  # vLLM无需真实API密钥
host = "192.168.3.110"  # 服务器IP（本地用localhost）
openai_api_base = f"http://{host}:8848/v1"  # 接口地址
model_name = "/path/your/Qwen3-8B"  # 模型路径（需与服务端一致）
# 创建客户端
client = OpenAI(api_key=openai_api_key, base_url=openai_api_base)
# 调用模型生成文本（以生成七言律诗为例）
completion = client.completions.create(
model=model_name,
prompt="以春天为主题生成一首七言律诗",
max_tokens=512,
temperature=0.7
)
# 打印结果
print("生成结果：", completion.choices[0].text)

三、部署方案对比

部署方案	适用场景	并发能力	硬件要求	操作难度
Ollama	个人开发、小团队测试	低（4-8）	消费级 PC	低（新手友好）
vLLM	企业生产、高并发服务	高（100+）	服务器 GPU	中（需配置 GPU 环境）