主流大模型硬件适配对照表(消费级 / 服务器通用)完整教程
第一章 核心认知:大模型硬件选型的底层逻辑
1.1 三个铁律
铁律一:显存是第一生产力。 显存不够,算力再强也加载不了模型。宁选大显存的低端卡(RTX 4060 Ti 16GB),不选小显存的高端卡(RTX 4070 Super 12GB)——后者根本加载不进去。
铁律二:推理看带宽,训练看算力。 推理是「访存密集」任务,每生成一个 token 都要读取全部模型权重,显存带宽直接决定生成速度上限。训练是「计算密集」任务,TFLOPS 是决定性因素。
铁律三:量化是消费级硬件的救星。 INT4 量化将显存需求压缩到 FP16 的 1/4,代价是 3-5% 的质量损失。对大多数场景,这个代价完全可以接受。
1.2 2026 年显存与模型速查(一句话版)
|
显存 |
能干什么 |
|---|---|
| 4GB |
Phi-4-mini、轻量学习体验 |
| 8GB |
7B-9B 模型 INT4,日常问答、写作、简单编程 |
| 16GB |
14B-32B 模型 INT4,企业内用、文档分析、专业编程 |
| 24GB |
32B INT4 舒适,接近 ChatGPT-4 级别能力,消费级甜点 |
| 48GB+ |
70B INT4 及以上,专业应用、复杂推理 |
| 80GB+ |
70B 全精度,千亿参数模型,生产环境高并发 |
第二章 显存计算核心公式(必须掌握)
2.1 推理显存估算
基础公式
显存占用 ≈ 模型参数量(B) × 精度字节数 + KV_Cache + 框架开销
精度字节数对照:
|
精度 |
每参数字节数 |
相对 FP16 |
|---|---|---|
|
FP32 |
4 字节 |
2x |
|
FP16 / BF16 |
2 字节 |
1x(基准) |
|
INT8 |
1 字节 |
0.5x |
|
INT4 |
0.5 字节 |
0.25x |
|
FP8 |
1 字节 |
0.5x |
简化版(快速心算)
所需显存(GB) ≈ 模型参数量(B) × 量化精度/8 × 1.2
其中 1.2 是 KV Cache 和系统开销的预留系数。
实战速算表
|
模型规模 |
FP16 |
INT8 |
INT4 |
FP16(含开销) |
INT8(含开销) |
INT4(含开销) |
|---|---|---|---|---|---|---|
| 0.5B |
1GB |
0.5GB |
0.25GB |
1.2GB |
0.6GB |
0.3GB |
| 1.5B |
3GB |
1.5GB |
0.75GB |
3.6GB |
1.8GB |
0.9GB |
| 3B |
6GB |
3GB |
1.5GB |
7.2GB |
3.6GB |
1.8GB |
| 4B |
8GB |
4GB |
2GB |
9.6GB |
4.8GB |
2.4GB |
| 7B |
14GB |
7GB |
3.5GB |
≈17GB | ≈10GB | ≈5GB |
| 8B |
16GB |
8GB |
4GB |
≈19GB | ≈12GB | ≈6GB |
| 9B |
18GB |
9GB |
4.5GB |
≈22GB | ≈13GB | ≈7GB |
| 13B |
26GB |
13GB |
6.5GB |
≈31GB | ≈17GB | ≈9GB |
| 14B |
28GB |
14GB |
7GB |
≈34GB | ≈19GB | ≈10GB |
| 27B |
54GB |
27GB |
13.5GB |
≈65GB | ≈35GB | ≈20GB |
| 32B |
64GB |
32GB |
16GB |
≈77GB | ≈42GB | ≈22GB |
| 34B |
68GB |
34GB |
17GB |
≈82GB | ≈44GB | ≈24GB |
| 70B |
140GB |
70GB |
35GB |
≈168GB | ≈88GB | ≈45GB |
| 72B |
144GB |
72GB |
36GB |
≈173GB | ≈90GB | ≈46GB |
| 122B |
244GB |
122GB |
61GB |
≈293GB | ≈150GB | ≈78GB |
| 235B (MoE) |
470GB |
235GB |
117.5GB |
≈565GB | ≈285GB | ≈145GB |
| 400B (MoE) |
800GB |
400GB |
200GB |
≈960GB | ≈490GB | ≈250GB |
| 671B (MoE) |
1342GB |
671GB |
335.5GB |
≈1610GB | ≈820GB | ≈420GB |
MoE 注意:MoE(混合专家)模型的「激活参数」远小于「总参数」。例如 Qwen3-235B-A22B 虽然总参数 235B,但每次推理只激活 22B,实际显存需求约为 235B 权重的存储 + 22B 激活的 KV Cache。
2.2 训练显存估算
训练比推理的显存需求高 3-4 倍,因为还需要存储优化器状态、梯度和中间激活值。
训练显存 ≈ 推理显存 × 3~4(全参数微调)
训练显存 ≈ 推理显存 × 1.5~2(LoRA 微调)
各模型训练显存速查(FP16 全参微调):
|
模型规模 |
推理显存 |
全参微调显存 |
LoRA 微调显存 |
推荐 GPU 组合 |
|---|---|---|---|---|
| 7B |
≈17GB |
≈50-70GB |
≈25-35GB |
1×A100 80GB / 2×RTX 4090 |
| 13B |
≈31GB |
≈90-120GB |
≈45-60GB |
2×A100 80GB / 4×RTX 4090 |
| 32B |
≈77GB |
≈230-300GB |
≈100-130GB |
4×A100 80GB / 4×H100 |
| 70B |
≈168GB |
≈500-670GB |
≈220-280GB |
8×A100 80GB / 8×H100 |
| 235B MoE |
≈565GB |
≈1.5-2TB |
≈600-800GB |
16×H100 80GB / 8×H200 |
2.3 KV Cache 精确估算
KV_Cache(GB) ≈ 2 × 层数 × 隐藏维度 × 精度字节数 × 上下文长度 / (1024³)
或简化:KV_Cache ≈ 模型参数 × 0.25 × (上下文长度 / 2048)
|
模型 |
层数 |
隐藏维度 |
4K 上下文 KV Cache |
16K 上下文 KV Cache |
32K 上下文 KV Cache |
|---|---|---|---|---|---|
| Qwen3-8B |
32 |
4096 |
≈0.5GB |
≈1.8GB |
≈3.5GB |
| Qwen3-32B |
64 |
5120 |
≈1.5GB |
≈6.0GB |
≈12GB |
| Llama 3.3 70B |
80 |
8192 |
≈3.8GB |
≈15GB |
≈30GB |
| DeepSeek-V3-lite |
— |
— |
≈1.2GB |
≈5.0GB |
≈10GB |
⚠️ 长上下文场景下,KV Cache 可能比模型权重本身占用更大的显存。
第三章 消费级 GPU 全景对比(NVIDIA RTX 系列)
3.1 核心参数一览(2026 年 6 月市场)
|
型号 |
显存 |
带宽 |
显存类型 |
FP16 算力 |
功耗 |
新卡参考价 |
二手参考价 |
评级 |
|---|---|---|---|---|---|---|---|---|
| RTX 3060 12GB |
12GB |
360 GB/s |
GDDR6 |
12.7 TFLOPS |
170W |
¥1,900 |
¥900-1,200 |
★★★ 入门首选 |
| RTX 4060 Ti 16GB |
16GB |
288 GB/s |
GDDR6 |
22.1 TFLOPS |
165W |
¥3,200 |
¥2,500 |
★★★★ 大显存入门 |
| RTX 4070 Super 12GB |
12GB |
504 GB/s |
GDDR6X |
35.5 TFLOPS |
220W |
¥4,800 |
¥3,800 |
★★ 显存太小 |
| RTX 4070 Ti Super |
16GB |
672 GB/s |
GDDR6X |
44.1 TFLOPS |
285W |
¥6,500 |
¥5,000 |
★★★★ 中高端甜点 |
| RTX 5060 Ti 16GB |
16GB |
448 GB/s |
GDDR7 |
28.4 TFLOPS |
180W |
¥4,599 |
— |
★★★★ 新一代入门 |
| RTX 5070 Ti 16GB |
16GB |
640 GB/s |
GDDR7 |
47.3 TFLOPS |
250W |
¥7,500 |
— |
★★★★ 新一代主力 |
| RTX 2080 Ti 22GB(改) |
22GB |
616 GB/s |
GDDR6 |
26.9 TFLOPS |
250W |
— |
¥1,800-2,500 |
★★★ 魔改有风险 |
| RTX 3090 24GB |
24GB |
936 GB/s |
GDDR6X |
35.6 TFLOPS |
350W |
已停产 |
¥5,500-7,000 |
★★★★★ 性价比之王 |
| RTX 4090 24GB |
24GB |
1,008 GB/s |
GDDR6X |
82.6 TFLOPS |
450W |
¥12,000-14,000 |
¥7,000-8,500 |
★★★★★ 全能旗舰 |
| RTX 5090 32GB |
32GB |
1,792 GB/s |
GDDR7 |
~104 TFLOPS |
550W |
¥14,000-16,000 |
极少 |
★★★★★ 消费级天花板 |
| RTX 5090D V2 24GB |
24GB |
1,600 GB/s |
GDDR7 |
~85 TFLOPS |
500W |
¥19,000 |
— |
★★★★ 国内特供 |
| RTX PRO 6000 96GB |
96GB |
960 GB/s |
GDDR7 |
~91 TFLOPS |
300W |
~¥100,000 |
— |
★★★★ 工作站级 |
3.2 各显卡适配模型速查(INT4 量化)
|
显卡 |
显存 |
7B/8B Q4 |
14B Q4 |
27B/32B Q4 |
70B/72B Q3 |
70B/72B Q4 |
推荐用途 |
|---|---|---|---|---|---|---|---|
| RTX 3060 12GB |
12GB |
✅ 流畅 |
✅ 可用 |
❌ |
❌ |
❌ |
学习、日常助手 |
| RTX 4060 Ti 16GB |
16GB |
✅ 流畅 |
✅ 流畅 |
⚠️ 勉强 |
❌ |
❌ |
9B 模型甜点 |
| RTX 4070 Ti S |
16GB |
✅ 流畅 |
✅ 流畅 |
⚠️ 勉强 |
❌ |
❌ |
编程助手 |
| RTX 5060 Ti 16GB |
16GB |
✅ 流畅 |
✅ 流畅 |
⚠️ 勉强 |
❌ |
❌ |
新一代入门 |
| RTX 5070 Ti 16GB |
16GB |
✅ 流畅 |
✅ 流畅 |
⚠️ 勉强 |
❌ |
❌ |
高性能入门 |
| RTX 2080Ti 22G |
22GB |
✅ 流畅 |
✅ 流畅 |
✅ 可用 |
❌ |
❌ |
魔改性价比 |
| RTX 3090 24GB |
24GB |
✅ 流畅 |
✅ 流畅 |
✅ 流畅 |
⚠️ 极勉强 |
❌ |
推荐消费级之选 |
| RTX 4090 24GB |
24GB |
✅ 极快 |
✅ 极快 |
✅ 流畅 |
⚠️ 勉强 |
❌ |
最强消费单卡 |
| RTX 5090 32GB |
32GB |
✅ 极快 |
✅ 极快 |
✅ 全精度 |
⚠️ Q3 |
❌ |
消费级新王 |
| 双 RTX 3090 |
48GB |
✅ 浪费 |
✅ 浪费 |
✅ 全精度 |
✅ Q3 |
✅ Q4 |
70B 最低门槛 |
| RTX PRO 6000 |
96GB |
✅ 浪费 |
✅ 浪费 |
✅ 全精度 |
✅ Q4 |
✅ Q4/Q6 |
单卡 72B 自由 |
图例:✅ 流畅(>15 tok/s)|✅ 可用(8-15 tok/s)|⚠️ 勉强(<8 tok/s / 上下文受限)|❌ 无法加载
3.3 消费级显卡推荐路径
预算 ¥4,000-6,000 → RTX 3060 12GB(二手 ¥1,000)/ RTX 4060 Ti 16GB(新 ¥3,200)
跑 7B-9B INT4,日常问答、写作足够
预算 ¥10,000-15,000 → RTX 3090 24GB(二手 ¥6,000)⭐ 强烈推荐
跑 32B INT4,能力接近 GPT-4,绝大多数人的甜点
预算 ¥20,000-30,000 → RTX 4090 24GB / RTX 5090 32GB
跑 32B 全精度或 70B INT4,消费级最强
预算 ¥30,000-50,000 → 双 RTX 3090 48GB / 双 RTX 4090
跑 70B 量化稳定,专业开发首选
第四章 服务器级 GPU 全景对比(A100 / H100 / H200 / L40S 等)
4.1 核心参数一览
|
型号 |
面向市场 |
显存 |
显存类型 |
显存带宽 |
FP16 算力 |
TF32 算力 |
功耗 |
多卡互联 |
定位 |
|---|---|---|---|---|---|---|---|---|---|
| A100 40GB |
全球 |
40GB |
HBM2e |
2,039 GB/s |
312 TFLOPS |
156 TFLOPS |
400W |
NVLink 600GB/s |
入门 AI 卡 |
| A100 80GB |
全球 |
80GB |
HBM2e |
2,039 GB/s |
312 TFLOPS |
156 TFLOPS |
500W |
NVLink 600GB/s |
上代性价比 |
| A800 80GB |
国内 |
80GB |
HBM2e |
2,039 GB/s |
312 TFLOPS |
156 TFLOPS |
500W |
NVLink 400GB/s(限) |
国内合规版 |
| H100 PCIe |
全球 |
80GB |
HBM3 |
2,000 GB/s |
578 TFLOPS |
289 TFLOPS |
350W |
PCIe 仅 32GB/s |
单卡推理,别组多卡 |
| H100 SXM |
全球 |
80GB |
HBM3 |
3,350 GB/s |
990 TFLOPS |
495 TFLOPS |
700W |
NVSwitch 900GB/s |
当代旗舰,训练最优 |
| H800 SXM |
国内 |
80GB |
HBM3 |
3,350 GB/s |
990 TFLOPS |
495 TFLOPS |
700W |
NVSwitch 400GB/s(限) |
国内合规版 |
| H200 |
全球 |
141GB |
HBM3e |
4,800 GB/s |
990 TFLOPS |
495 TFLOPS |
700W |
NVSwitch 900GB/s |
超大显存推理 |
| H20 |
国内特供 |
96GB |
HBM3 |
4,000 GB/s |
148 TFLOPS |
74 TFLOPS |
~350W |
PCIe |
国内推理性价比 |
| B200 |
全球 |
192GB |
HBM3e |
8,000 GB/s |
2,250 TFLOPS |
— |
1,000W |
NVSwitch 1,800GB/s |
下一代旗舰 |
| L40S |
全球 |
48GB |
GDDR6 |
864 GB/s |
~91 TFLOPS |
— |
300W |
PCIe |
轻量推理 |
| L20 |
国内 |
48GB |
GDDR6 |
~900 GB/s |
~86 TFLOPS |
— |
275W |
PCIe |
国内推理入门 |
4.2 推理性能实测对比(7B FP16 模型)
|
GPU |
理论速度上限 |
实测速度 |
单卡可跑最大模型(INT4) |
高并发能力 |
|---|---|---|---|---|
| L40S |
~31 tok/s |
~20 tok/s |
27B(48GB) |
一般 |
| A100 80GB |
~73 tok/s |
~47 tok/s |
32B 全精度 |
优秀 |
| H100 SXM |
~120 tok/s |
~78 tok/s |
32B 全精度 |
极强 |
| H200 |
~170 tok/s |
~110 tok/s |
70B Q4 单卡 |
超强 |
| H20 |
~140 tok/s |
~90 tok/s |
70B Q3 单卡 |
强(推理专用) |
结论:H100 SXM 推理速度是 L40S 的 3-4 倍,差距主要来自显存带宽而非算力。H20 虽然算力仅为 H100 的 15%,但因其 96GB 大显存 + 4TB/s 高带宽,在推理场景性价比较高。
4.3 服务器级 GPU 选型决策表
|
场景 |
首选 GPU |
次选 |
预算控制 |
|---|---|---|---|
| 7B-13B 推理(高并发) |
A100 40GB |
L40S 48GB |
¥5-10 万 |
| 32B-70B 推理(单卡) |
H200 141GB |
H20 96GB |
¥15-30 万 |
| 70B+ 推理(多卡) |
4×A100 80GB |
2×H100 SXM |
¥30-60 万 |
| 千亿参数推理 |
8×H200 |
8×H100 SXM |
¥150-300 万 |
| 7B-13B 微调训练 |
A100 80GB |
2×RTX 4090 |
¥8-15 万 |
| 32B-70B 全参训练 |
8×H100 SXM |
8×A100 80GB |
¥80-150 万 |
| 70B LoRA 微调 |
4×A100 80GB |
2×H100 SXM |
¥30-50 万 |
| 预算敏感推理 |
H20 96GB |
RTX 6000 Ada |
¥10-15 万/卡 |
4.4 H100 SXM vs H100 PCIe —— 多卡场景天壤之别
|
维度 |
H100 SXM |
H100 PCIe |
|---|---|---|
|
显存带宽 |
3.35 TB/s |
2.0 TB/s |
|
FP16 算力 |
990 TFLOPS |
578 TFLOPS |
|
多卡互联 |
NVSwitch 900 GB/s |
PCIe 32 GB/s(慢 28 倍!) |
|
功耗 |
700W |
350W |
|
适用场景 |
多卡训练 / 推理 |
单卡推理 |
|
采购检查 |
须确认 SXM + NVSwitch |
不适合多卡 |
⚠️ 踩坑实录:有团队买了 2 张 H100 PCIe 做多卡并行,结果卡间通信只有 32GB/s(SXM 版是 900GB/s),8 卡加速比仅 3.5x 而非预期的 6.5x。
第五章 苹果 Apple Silicon 统一内存方案
5.1 核心逻辑
Mac 走的是「统一内存」路线:CPU 和 GPU 共享同一块内存,没有独立显存。这意味着 Mac 可以跑 NVIDIA 方案完全加载不了的大模型,但推理速度慢于同价位的 NVIDIA 方案。
选 Mac 还是 NVIDIA?一句话:要速度选 NVIDIA,要安静省心选 Mac,要跑超大模型(100B+)选 Mac 大内存版。
5.2 苹果芯片核心 AI 参数
|
芯片 |
内存带宽 |
GPU 核心数 |
最大统一内存 |
等效可用显存 |
AI 档位 |
|---|---|---|---|---|---|
|
M4(基础版) |
120 GB/s |
10 |
32GB |
~24GB |
入门 |
|
M4 Pro |
273 GB/s |
20 |
64GB |
~56GB |
Pro 级 |
|
M4 Max |
410-546 GB/s |
32-40 |
128GB |
~120GB |
专业 |
|
M3 Pro |
150 GB/s |
18 |
36GB |
~28GB |
入门 Pro |
|
M3 Max |
300-400 GB/s |
30-40 |
128GB |
~120GB |
专业 |
|
M3 Ultra |
800 GB/s |
60-80 |
512GB |
~480GB |
旗舰 |
|
M2 Ultra |
800 GB/s |
60-76 |
192GB |
~180GB |
上一代旗舰 |
5.3 各内存规格适配模型速查
|
统一内存 |
可跑模型(INT4 Q4_K_M) |
实际可用显存 |
体验 |
|---|---|---|---|
| 8GB |
3B 模型(Llama 3.2 3B、Phi-4 Mini) |
~5GB |
勉强可用,仅学习 |
| 16GB |
7B-8B(Qwen3-8B、Llama 3.1 8B) |
~12GB |
入门甜点,日常体验佳 |
| 24GB |
14B(Qwen3-14B、DeepSeek-R1-14B) |
~20GB |
质的飞跃,性价比甜点 |
| 36-48GB |
32B(Qwen3-32B、DeepSeek-R1-32B) |
~30-42GB |
本地 AI 最佳体验 |
| 64-96GB |
70B(Llama 3.3 70B、Qwen2.5 72B) |
~55-85GB |
云端 API 质量,跑在桌面 |
| 128GB+ |
100B+(Qwen3-235B、DeepSeek-V3) |
~115GB+ |
无限制,想做就做 |
5.4 Mac 各机型实测推理速度(tok/s)
测试条件:Ollama,Q4_K_M 量化,500 tokens 输入生成 200 tokens。
|
设备 |
内存 |
带宽 |
8B 模型 |
14B 模型 |
32B 模型 |
70B 模型 |
|---|---|---|---|---|---|---|
|
M4 Mac Mini 16GB |
16GB |
120GB/s |
38 tok/s |
❌ |
❌ |
❌ |
|
M4 Pro Mini 48GB |
48GB |
273GB/s |
42 tok/s |
24 tok/s |
11 tok/s |
❌ 内存不够 |
|
M3 Max MBP 64GB |
64GB |
300GB/s |
58 tok/s |
33 tok/s |
15 tok/s |
7.5 tok/s |
|
M3 Max Studio 128GB |
128GB |
400GB/s |
72 tok/s |
41 tok/s |
19 tok/s |
9.8 tok/s |
|
M2 Ultra Studio 192GB |
192GB |
800GB/s |
~95 tok/s |
~55 tok/s |
~26 tok/s |
~14 tok/s |
核心结论:
-
内存带宽 > 芯片代数:M3 Max(400GB/s)跑 LLM 比 M4 Pro(273GB/s)快 30-70%
-
70B 需要 64GB + Max 级带宽作为硬门槛
-
48GB Mac Mini M4 Pro 是本地跑 32B 的最佳性价比(¥11,999)
-
128GB Mac Studio 可直接跑 70B Q4 量化 42GB 权重,而 PC 单卡 24GB 完全无法对标
5.5 Mac vs NVIDIA 终极对比
|
维度 |
Mac 方案 |
NVIDIA 方案 |
|---|---|---|
|
最大可跑模型 |
100B+(大内存版) |
70B INT4(双卡)/ 32B(单卡) |
|
推理速度(32B) |
12-22 tok/s |
40+ tok/s(4090) |
|
噪音 |
极低 |
中-高(风扇啸叫) |
|
功耗(满载) |
60-100W |
500-1000W |
|
静音 7×24 |
✅ 完美 |
⚠️ 需散热方案 |
|
GPU 升级 |
无 |
可更换 |
|
出图(SD/Flux) |
慢 30-50% |
快 |
|
适合人群 |
静音需求、Mac 生态、隐私优先 |
追求速度、可折腾、预算灵活 |
5.6 Mac 选购避雷
-
❌ M3 Pro:带宽从 M2 Pro 的 200GB/s 倒退到 150GB/s,AI 场景不如 M2 Pro
-
❌ 24GB 内存版任何 Mac:2026 年入门 32B 都不够
-
❌ M4 基础版:16GB 只能跑 8B,不划算
-
❌ Intel Mac:不支持 Metal LLM 加速
-
✅ 首选:M4 Pro 48GB Mac Mini(预算 ¥12,000)或 M3 Max 64GB Mac Studio(预算 ¥15,000-20,000)
第六章 主流大模型 × 硬件适配完整对照表
6.1 2026 年六大主流开源模型硬件需求总表(INT4 Q4_K_M 量化)
|
模型 |
参数量 |
INT4 权重 |
推荐最低显存 |
推荐单卡 |
推荐多卡 |
实测速度(t/s) |
|---|---|---|---|---|---|---|
| DeepSeek-R1 1.5B |
1.5B |
~1GB |
4GB |
核显即可 |
— |
50+ |
| Qwen3.5-0.8B |
0.8B |
~0.5GB |
无需独显 |
CPU+16GB 内存 |
— |
60+ |
| Phi-4 Mini |
3.8B |
~2.5GB |
4GB |
RTX 3060 |
— |
25-35 |
| Gemma 3 |
4B |
~3.2GB |
8GB |
RTX 3060 |
— |
30-45 |
| Qwen3-8B |
8B |
~5GB |
8GB |
RTX 3060 12GB |
— |
40-55(4090) |
| Llama 3.1 8B |
8B |
~4.5GB |
8GB |
RTX 3060 12GB |
— |
45-60(4090) |
| DeepSeek-R1-Distill-8B |
8B |
~4.5GB |
8GB |
RTX 3060 12GB |
— |
35-50 |
| GLM-Z1-9B |
9B |
~5.5GB |
8GB |
RTX 3060 12GB |
— |
45-60(4090) |
| Qwen3-14B |
14B |
~9GB |
12GB |
RTX 3060 12GB |
— |
25-40(4090) |
| DeepSeek-R1-Distill-14B |
14B |
~8.5GB |
12GB |
RTX 3060 12GB |
— |
20-35 |
| Qwen3-Coder-30B-A3B |
30B MoE |
~2.5GB |
8GB |
RTX 3060 |
— |
40-60 |
| DeepSeek-V3-lite |
16B |
~6.8GB |
8GB |
RTX 3060 |
— |
25-40 |
| Qwen3-27B |
27B(Dense) |
~18GB |
24GB |
RTX 3090/4090 |
— |
20-30(4090) |
| Qwen3.5-32B |
32B |
~18GB |
24GB |
RTX 4090 24GB |
— |
25-40(4090) |
| DeepSeek-R1-Distill-32B |
32B |
~19GB |
24GB |
RTX 3090/4090 |
— |
15-22 |
| GLM-Z1-32B |
32B |
~18GB |
24GB |
RTX 3090/4090 |
— |
20-30 |
| Yi-1.5-34B |
34B |
~20GB |
24GB |
RTX 3090/4090 |
— |
15-20 |
| DeepSeek-V3.2 蒸馏32B |
32B |
~20GB |
24GB |
RTX 4090 24GB |
— |
20-30 |
| Qwen3.5-72B |
72B |
~42GB |
48GB+ |
H20 96GB |
双 3090 48GB |
8-12(双 3090) |
| Llama 3.3 70B |
70B |
~40GB |
48GB+ |
H200 141GB |
双 4090 48GB |
8-15(双 4090) |
| DeepSeek-R1-Distill-70B |
70B |
~40GB |
48GB+ |
H20 96GB |
双 4090 48GB |
8-14 |
| Qwen3.5-122B |
122B |
~74GB |
80GB+ |
A100 80GB |
4×A100 |
5-10 |
| Qwen3-235B-A22B |
235B MoE |
~88GB |
96GB+ |
H200 141GB |
4×A100 |
5-10 |
| DeepSeek-V3.2 |
685B MoE |
~340GB(FP8) |
400GB+ |
— |
8×H100 80GB |
15-30 |
| Llama 4 Maverick |
400B MoE |
~200GB(INT4) |
200GB+ |
— |
4×H200 |
10-20 |
说明:实测速度为单卡最大可用显存下的参考数据,实际速度受推理框架、上下文长度、batch size 等因素影响。
6.2 按显存容量反向选模型(消费级)
|
你的显存 |
推荐模型(INT4) |
体验等级 |
|---|---|---|
| 4GB |
Phi-4-Mini、Gemma 3 4B |
⭐⭐ 入门体验 |
| 8GB |
Qwen3-8B、Llama 3.1 8B、DeepSeek-V3-lite |
⭐⭐⭐ 日常可用 |
| 12GB |
Qwen3-14B、DeepSeek-R1-14B |
⭐⭐⭐⭐ 质的提升 |
| 16GB |
14B 全精度、32B 量化(勉强) |
⭐⭐⭐⭐ 足够好用 |
| 24GB |
Qwen3.5-32B、DeepSeek-R1-32B |
⭐⭐⭐⭐⭐ 消费级甜点 |
| 32GB |
32B 全精度、MoE 模型 |
⭐⭐⭐⭐⭐ 接近天花板 |
| 48GB+ |
70B-72B INT4 |
⭐⭐⭐⭐⭐ 云端级质量 |
6.3 按使用场景推荐模型+硬件组合
|
使用场景 |
推荐模型 |
推荐硬件 |
预算 |
|---|---|---|---|
|
日常问答 / 写作 |
Qwen3-8B Q5 |
RTX 3060 12GB / M4 16GB |
¥5,000-8,000 |
|
编程助手 |
Qwen3.5-32B Q4 / DeepSeek-V3-16B |
RTX 3090 24GB |
¥10,000-15,000 |
|
中文创作 / 翻译 |
Qwen3.5-32B Q4 |
RTX 4090 24GB / M4 Pro 48GB |
¥12,000-18,000 |
|
数学推理 / 竞赛 |
DeepSeek-R1-32B Q4 |
RTX 3090 24GB |
¥10,000-15,000 |
|
长文档分析 |
Yi-1.5-34B Q4(200K 上下文) |
RTX 3090 24GB |
¥10,000-15,000 |
|
知识库 / RAG |
Qwen3.5-32B Q4 + BGE-M3 Embedding |
RTX 3090 24GB |
¥10,000-15,000 |
|
多模态 / 视觉 |
Qwen3-VL-8B |
RTX 4060 Ti 16GB |
¥8,000-12,000 |
|
企业级智能客服 |
Qwen3.5-72B Q4 |
H20 96GB / 双 3090 |
¥15,000-30,000 |
|
超长上下文(10M) |
Llama 4 Scout 109B Q2 |
RTX 4090 24GB / MAC 128GB |
¥15,000-40,000 |
|
追求高质量输出 |
Qwen3.5-72B Q4 |
Dual RTX 4090 / M4 Max 128GB |
¥25,000-35,000 |
第七章 训练 vs 推理:硬件需求的核心差异
7.1 总览
|
维度 |
推理(Inference) |
训练/微调(Training/Fine-tuning) |
|---|---|---|
| 瓶颈资源 |
显存带宽(GB/s) |
算力(TFLOPS) + 显存容量 |
| 显存需求倍数 |
1x |
3-4x(全参) / 1.5-2x(LoRA) |
| 对量化精度敏感度 |
低(INT4 可用) |
高(需要 BF16/FP16) |
| 推荐 GPU 类型 |
大显存 + 高带宽 |
高算力 + 大显存 + NVLink |
| 关键特性 |
PagedAttention、Flash Attention |
Tensor Cores、NVLink 互联 |
| 消费级可行性 |
✅ 完全可行 |
⚠️ 仅小模型(<13B) |
| 量化是否推荐 |
✅ 强烈推荐 INT4/INT8 |
⚠️ 训练用 BF16/FP16,QLoRA 可用 INT4 |
7.2 训练显存详细估算
全参数微调显存 ≈ 模型权重 + 优化器状态(2×权重)+ 梯度(1×权重)+ 激活值
≈ 4× 模型权重(FP16)+ 激活值
LoRA 微调显存 ≈ 模型权重 + LoRA 适配器 + 激活值
≈ 1.2× 模型权重(FP16)+ 激活值
各模型训练所需 GPU 组合:
|
模型 |
全参微调(FP16) |
LoRA 微调(FP16) |
QLoRA(INT4) |
|---|---|---|---|
| Qwen3-8B |
1×A100 80GB(60GB) |
1×RTX 4090 24GB(22GB) |
1×RTX 3090 24GB(15GB) |
| Qwen3-14B |
2×A100 80GB(110GB) |
1×A100 80GB(40GB) |
1×RTX 4090 24GB(22GB) |
| Qwen3.5-32B |
4×A100 80GB(250GB) |
2×A100 80GB(100GB) |
1×RTX 4090 24GB(24GB) |
| Qwen3.5-72B |
8×A100 80GB(550GB) |
4×A100 80GB(220GB) |
2×RTX 4090 48GB(45GB) |
7.3 租赁 GPU 避坑
|
坑 |
实际情况 |
避坑方案 |
|---|---|---|
|
预估 3 天跑完,实际 5 天 |
GPU 租赁「按卡时计费」,含调试空闲时间 |
调试用 T4/V100,正式跑用 A100/H100 |
|
竞价实例便宜但被中断 |
价格低 50-70% 但随时可能被回收 |
配合 Checkpoint 断点续训 |
|
数据加载拖慢训练 |
GPU 利用率仅 30%,大部分时间等 I/O |
预加载到内存、用高速 NVMe |
|
8 卡 ≠ 8x 速度 |
PCIe 版多卡加速比仅 3.5x |
SXM + NVSwitch 可达 6.5x |
第八章 多 GPU 并行方案实战
8.1 互联技术对比
|
技术 |
带宽 |
适用 GPU |
性价比 |
适合 |
|---|---|---|---|---|
| PCIe 4.0 ×16 |
32 GB/s |
所有消费级 GPU |
高 |
数据并行、单卡推理 |
| PCIe 5.0 ×16 |
64 GB/s |
RTX 50 系 |
高 |
数据并行 |
| NVLink 3.0 |
600 GB/s |
A100 |
中 |
张量并行、多卡推理 |
| NVLink 4.0 |
900 GB/s |
H100 SXM |
低 |
大规模训练 |
| NVSwitch |
900 GB/s per link |
H100 SXM(全互联) |
最低 |
8 卡训练集群 |
8.2 多卡加速比实测
|
互联方式 |
2 卡 |
4 卡 |
8 卡 |
|---|---|---|---|
|
PCIe Gen4 |
1.6x |
2.5x |
3.5x |
|
NVLink 4.0 |
1.8x |
3.2x |
5.5x |
|
NVSwitch + 优化 |
1.9x |
3.5x |
6.5x |
⚠️ 核心教训:8 卡通常只能达到 5-6.5 倍加速,不要期望线性增长。优先选单卡能力强的 GPU 比堆卡数更划算。
8.3 双卡消费级显卡部署 70B 模型
# Ollama 双 GPU 配置
# 先设置环境变量
export OLLAMA_NUM_GPU=2
# 拉取 70B 量化模型
ollama pull deepseek-r1:70b-q4_K_M
# 运行
ollama run deepseek-r1:70b-q4_K_M
注意事项:
-
两张卡必须相同型号(如两张 RTX 3090),Ollama 不支持异构多卡
- 如果只有一张 NVIDIA + CPU 共享内存模式,可限制 GPU 层数:
ollama run deepseek-r1:70b --num-gpu-layers 40 -
电源必须够——双 3090 满载功耗 ~700W,建议 1200W 金牌以上电源
第九章 各预算档位完整配置方案(2026 年 6 月)
方案 A:零成本入门 —— 无需独显
|
硬件 |
推荐型号 |
价格 |
|---|---|---|
|
CPU |
Intel i3 / 任意双核以上 |
利用现有 |
|
内存 |
16GB DDR4 |
利用现有 |
|
存储 |
256GB SSD |
利用现有 |
| 显卡 | 无需独显(CPU 推理) | ¥0 |
|
可跑模型 |
Qwen3.5-0.8B(Q4 不到 1GB) |
|
|
推理速度 |
5-10 tok/s |
|
|
能做什么 |
体验本地 AI 是什么感觉,简单问答、翻译 |
|
| 总预算 | 利用现有硬件 |
💡 建议:如果只是体验,不如直接用云端 API(如 DeepSeek API 免费额度)。
方案 B:入门学习型 —— 预算 ¥4,000-6,000 ⭐
目标:流畅运行 7B-9B INT4 量化模型
|
配件 |
推荐型号 |
价格 |
|---|---|---|
|
CPU |
Intel i5-12400F / AMD R5 5600 |
¥600-800 |
| 显卡 | RTX 3060 12GB(二手)
或 RTX 4060 Ti 16GB(新) |
¥1,200 / ¥3,200 |
|
内存 |
32GB DDR4 3200MHz |
¥400 |
|
存储 |
1TB NVMe SSD |
¥400 |
|
主板 |
B660M / B550M |
¥500 |
|
电源 |
650W 铜牌 |
¥350 |
|
机箱 |
普通 ATX |
¥200 |
| 合计 | ¥3,650-5,850 |
性能表现:DeepSeek-R1-7B 30-45 tok/s,日常对话流畅,代码补全延迟 < 1 秒。
方案 C:进阶主力型 —— 预算 ¥12,000-18,000 ⭐⭐ 强烈推荐
目标:流畅运行 14B-32B INT4 量化模型
|
配件 |
推荐型号 |
价格 |
|---|---|---|
|
CPU |
Intel i7-13700F / AMD R7 7800X3D |
¥1,800-2,500 |
| 显卡 | RTX 3090 24GB(二手) | ¥6,000 |
|
内存 |
64GB DDR5 5600MHz |
¥1,200 |
|
存储 |
2TB NVMe Gen4 SSD |
¥800 |
|
主板 |
Z790 / B650 |
¥1,200 |
|
电源 |
1000W 金牌全模组 |
¥800 |
|
散热 |
360 水冷(3090 发热量巨大) |
¥500 |
|
机箱 |
中塔通风机箱 |
¥400 |
| 合计 | ¥12,700-13,400 |
为什么是 3090 而不是 4090? RTX 3090 的 24GB 显存与 4090 相同,LLM 推理场景下显存大小比算力重要得多。3090 的 936 GB/s 带宽跑 32B INT4 绰绰有余,价格只有 4090 的一半。
性能表现:Qwen3.5-32B INT4 约 18-25 tok/s,可同时跑 RAG 知识库 + 对话 Agent。
方案 D:性能发烧型 —— 预算 ¥25,000-35,000
目标:流畅运行 70B 量化模型或 32B 全精度
|
配件 |
价格 |
|---|---|
| RTX 5090 32GB(单卡) |
¥14,000 |
|
或 双 RTX 3090 24GB(双卡 48GB) |
¥12,000 |
|
其余配件(CPU、内存、主板、电源等) |
¥13,000-15,000 |
| 合计 | ¥25,000-29,000 |
|
方案 |
显存 |
优势 |
劣势 |
|---|---|---|---|
|
单 RTX 5090 32GB |
32GB |
省心、驱动稳、低功耗,32B 全精度跑满 |
价格高 |
|
双 RTX 3090 48GB |
48GB |
便宜,能完整跑 70B INT4(~42GB) |
功耗 700W+,部分模型需手动并行配置 |
性能表现:双 3090 跑 DeepSeek-R1-70B INT4 约 8-12 tok/s,速度不快但能用。单 5090 跑 Qwen3.5-32B 全精度约 35-50 tok/s。
方案 E:Mac 静音方案
|
设备 |
统一内存 |
可跑模型 |
价格 |
推荐度 |
|---|---|---|---|---|
|
Mac Mini M4 Pro 48GB |
48GB |
32B 全精度 |
¥11,999 |
⭐⭐⭐⭐⭐ 最佳性价比 |
|
Mac Studio M3 Max 64GB |
64GB |
70B INT4 |
¥18,000-20,000 |
⭐⭐⭐⭐ 跑 70B 甜点 |
|
Mac Studio M3 Max 128GB |
128GB |
100B+ Q4 |
¥28,000-32,000 |
⭐⭐⭐⭐ 无限制 |
|
MacBook Pro M4 Max 48GB |
48GB |
32B 全精度 |
¥25,999 |
⭐⭐⭐⭐ 移动首选 |
方案 F:企业服务器方案
|
目标 |
推荐配置 |
月租(云) |
采购(自建) |
|---|---|---|---|
|
7B-13B 高并发推理 |
1×A100 80GB |
¥8,000-12,000/月 |
¥15-25 万 |
|
32B 推理服务 |
1×H20 96GB 或 2×A100 80GB |
¥5,000-10,000/月 |
¥10-20 万 |
|
70B 推理服务 |
4×A100 80GB 或 2×H100 SXM |
¥25,000-40,000/月 |
¥40-60 万 |
|
千亿参数推理 |
8×H200 |
¥150,000-200,000/月 |
¥200-300 万 |
第十章 云 GPU vs 自建硬件成本对比
10.1 各服务商价格参考(2026 年 6 月)
|
服务商 |
配置 |
价格 |
适合 |
|---|---|---|---|
| AutoDL |
RTX 3090 24GB |
¥1,500-2,000/月(按量) |
个人开发者、实验 |
| AutoDL |
A100 40GB |
¥4,000-5,000/月(按量) |
中小团队训练 |
| 阿里云 PAI |
A100 80GB |
¥8,000-12,000/月 |
企业生产 |
| 腾讯云 GPU |
GN10Xp 24GB |
¥6,000-9,000/月 |
企业推理服务 |
| AWS |
g4dn.xlarge 16GB |
$600-800/月 |
海外业务 |
| AWS |
p4d.24xlarge 8×A100 |
$32/小时 |
大规模训练 |
10.2 自建 vs 租赁盈亏平衡点
自建成本 ¥15,000(RTX 3090 整机)
÷ AutoDL 租赁 ¥1,800/月
= 8.3 个月回本
如果每天使用超过 4 小时 → 自建更划算
如果偶尔实验/项目驱动 → 租赁更灵活
建议路径:
-
学习/实验阶段:AutoDL 按量付费,先用 T4/V100 调通代码
-
开发/迭代阶段:自建一台 RTX 3090/4090 主力机
-
生产部署阶段:企业云服务(阿里云/腾讯云)+ SLA 保障
第十一章 部署工具与框架硬件适配
11.1 三大工具硬件效率对比
|
工具 |
推理速度(8B INT4, RTX 4090) |
显存效率 |
并发能力 |
适合 |
|---|---|---|---|---|
| Ollama(llama.cpp 后端) |
40-55 tok/s |
⭐⭐⭐ 中等 |
❌ 串行排队 |
个人使用、API 服务 |
| vLLM |
60-80 tok/s |
⭐⭐⭐⭐⭐ 最高 |
✅ 真并发(50-100) |
生产环境高并发 |
| LM Studio |
35-50 tok/s |
⭐⭐ 较高开销 |
❌ 无 API |
非技术人员、GUI |
| MLX-LM
(Mac专用) |
45-70 tok/s(Mac) |
⭐⭐⭐⭐ 高 |
❌ 单会话 |
Mac 极致速度 |
11.2 框架选型决策
你是开发者吗?
├─ 是 → 需要高并发吗?
│ ├─ 是 → vLLM + Docker + NVIDIA GPU
│ └─ 否 → Ollama(一行命令,OpenAI 兼容 API)
└─ 否 → LM Studio(GUI 操作,点点鼠标)
vLLM 并发实测(Qwen2.5-1.5B,T4 16GB):
|
并发数 |
KV Cache 使用量 |
Token 总量 |
|---|---|---|
|
1 |
0.254 GB |
1 万 |
|
5 |
1.280 GB |
5 万 |
|
10 |
2.572 GB |
10 万 |
|
11 |
2.821 GB(接近上限) |
11 万 |
结论:vLLM 的 PagedAttention 技术使相同显存下,并发能力比传统推理强约 6 倍。
第十二章 显存不足时的优化策略
12.1 优先级排序
|
优先级 |
策略 |
效果 |
代价 |
|---|---|---|---|
|
1 |
提高量化级别
(FP16 → INT4) |
显存降至 1/4 |
质量降 3-5% |
|
2 |
缩短上下文长度
(32K → 8K) |
KV Cache 减少 75% |
长文分析能力下降 |
|
3 |
GPU 层数限制
(num-gpu-layers) |
用 CPU 内存补偿 |
速度降至 2-5 tok/s |
|
4 |
换更小的模型
(32B → 14B → 8B) |
显著降低显存 |
能力下降 |
|
5 |
换用 vLLM |
提升 20-30% 显存效率 |
学习成本 |
12.2 GPU Offloading 实战
# Ollama 部分层回退到 CPU 内存
ollama run qwen3.5:32b --num-gpu-layers 20
# 仅前 20 层在 GPU,其余在 CPU 内存
# 显存压力↓,但速度断崖式跌到 2-5 tok/s
# vLLM 限制 GPU 显存使用率
vllm serve /path/to/model --gpu-memory-utilization 0.7
# 仅使用 70% GPU 显存,剩余依赖 CPU swap
第十三章 避坑大全
13.1 显卡选购避坑
|
坑 |
说明 |
避坑方案 |
|---|---|---|
|
❌ RTX 4070 Super 12GB |
显存太小,14B 模型装不下 |
加钱上 3090 24GB 或 4060 Ti 16GB |
|
❌ RTX 4060 8GB |
仅 8GB,只能跑小模型 |
至少选 12GB 版或 Ti 16GB |
|
❌ T4 16GB |
算力 7.5,不支持 BF16/FlashAttention-2 |
宁选 RTX 3060 也不选 T4 |
|
❌ A10 24GB |
推理训练性能差 |
同预算选 RTX 3090 |
|
❌ 魔改 2080Ti 22GB |
脱焊、掉驱动、无保修 |
除非动手能力极强,否则远离 |
|
❌ 矿卡翻新 4090 |
BIOS 被刷、寿命未知 |
京东自营 / 官方认证二手 |
|
❌ AMD 显卡 |
ROCm 兼容性差,新模型首发用不了 |
老老实实 NVIDIA CUDA 生态 |
|
✅ RTX 3090 二手 |
24GB + 936GB/s,¥6,000 |
性价比之王,注意验 3DMark 压力测试 |
|
✅ RTX 5090 |
32GB GDDR7 消费旗舰 |
预算充足一步到位 |
13.2 Mac 选购避坑
|
避坑 |
原因 |
|---|---|
|
❌ M3 Pro |
带宽从 M2 Pro 200GB/s 倒退到 150GB/s |
|
❌ 24GB 以下统一内存 |
2026 年连 32B Q4 都跑不畅 |
|
❌ M4 基础版 |
16GB 仅够 8B 模型 |
|
❌ Intel Mac |
不支持 Metal LLM 加速 |
|
❌ 闲鱼「美版全新便宜 30%」 |
大概率贴牌翻新或保修失效 |
|
✅ M4 Pro 48GB Mac Mini |
¥11,999,32B 本地 AI 最佳性价比 |
|
✅ M3 Max 64GB Mac Studio |
二手/官翻 ¥15,000-20,000,70B 入门甜点 |
13.3 服务器避坑
|
坑 |
实例 |
解决方案 |
|---|---|---|
|
只算算力不算显存 |
买了 2×A100 40GB(共 80GB)想跑 70B FP16(需 140GB+80GB 开销) |
先算显存需求!公式见第二章 |
|
H100 PCIe 还是 SXM 分不清 |
PCIe 版多卡通信 32GB/s,SXM 900GB/s |
多卡必选 SXM + NVSwitch |
|
8 卡 ≠ 8x 速度 |
PCIe 版 8 卡加速比仅 3.5x |
SXM 版可达 6.5x |
|
忽略显存带宽 |
L40S(864GB/s)跑 7B 仅 20 tok/s,预期 100 |
推理看带宽,优先选 HBM 系列 |
|
租赁 GPU 预算超支 |
预估 3 天实际 5 天 |
调试用便宜卡,正式跑用高性能卡 |
第十四章 五个热门实操案例
案例 14.1:¥6,000 打造 AI 编程工作站
需求:用 RTX 3090 24GB 搭建本地编程助手,替代 GitHub Copilot
配置:
# 系统:Ubuntu 24.04 + RTX 3090 24GB
# 框架:Ollama
# 1. 部署编程专用模型
ollama pull qwen3.5-coder:32b-q4_K_M
# 2. 配置 VS Code Continue 扩展
# settings.json:
{
"models": [{
"title": "Local Qwen3.5-Coder",
"provider": "ollama",
"model": "qwen3.5-coder:32b-q4_K_M"
}]
}
# 3. Claude Code 接入
export ANTHROPIC_BASE_URL="http://localhost:11434/v1"
export ANTHROPIC_API_KEY="ollama"
claude
效果:32B 模型代码补全延迟 < 2 秒,中等难度 LeetCode 通过率 31%。
案例 14.2:双 3090 跑 70B 模型
需求:在消费级硬件上体验 GPT-4 级别能力
配置:
# 硬件:2× RTX 3090 24GB + 1200W 电源
# 系统:Ubuntu 24.04
# 1. 确保两张卡型号相同
nvidia-smi # 确认两张都是 RTX 3090
# 2. 配置 Ollama 双卡
export OLLAMA_NUM_GPU=2
# 3. 拉取 70B 量化模型
ollama pull deepseek-r1:70b-q4_K_M
# 4. 运行
ollama run deepseek-r1:70b-q4_K_M
效果:Q4_K_M 量化权重约 40GB(每张卡 20GB),推理速度 8-12 tok/s,上下文 8K。速度不快但质量到位。
案例 14.3:Mac Mini M4 Pro 48GB 打造静音 AI 工作站
需求:安静的本地 AI,24×7 运行,不限流
配置:Mac Mini M4 Pro 48GB + 外接 2TB NVMe 雷雳 4 硬盘盒
# 1. 安装 Ollama
brew install ollama
# 2. 模型常驻内存(Agent 场景必开)
OLLAMA_KEEP_ALIVE=1h ollama serve
# 3. 拉取模型
ollama pull qwen3:32b-q4_K_M
ollama pull llama3.1:8b-q4_K_M # 快速模型备用
ollama pull nomic-embed-text # RAG Embedding
# 4. 国内加速
export OLLAMA_REGISTRY="https://hf-mirror.com"
效果:32B 模型 11 tok/s,满载功耗 65W,静音无感,全年电费不到 ¥300(按 ¥0.6/度算)。
案例 14.4:企业级 RAG 知识库方案
需求:搭建企业私有知识库,支持 50 人并发查询
硬件方案:1×A100 80GB + 1TB NVMe SSD
# 架构:vLLM (推理) + LangChain (RAG) + ChromaDB (向量库)
# 1. vLLM 推理服务
vllm serve Qwen/Qwen3.5-32B-Instruct \
--max-model-len16384 \
--gpu-memory-utilization 0.85 \
--tensor-parallel-size 1
# 2. Embedding 模型
# BGE-M3 占用约 2GB,预留显存
# 3. RAG Pipeline
from langchain_community.vectorstores import Chroma
from langchain_huggingface import HuggingFaceEmbeddings
embedding = HuggingFaceEmbeddings(
model_name="BAAI/bge-m3",
model_kwargs={"device": "cuda"}
)
# 4. 链式调用
from langchain.chains import RetrievalQA
qa_chain = RetrievalQA.from_chain_type(
llm=vllm_llm,
retriever=vector_store.as_retriever()
)
硬件需求总结:32B 推理 22GB + Embedding 2GB + 向量库预留 16GB + KV Cache + 并发 = 建议 80GB 显存起步(A100 正好)。
案例 14.5:低成本服务器推理方案(H20)
需求:国内合规、高性价比的 70B 推理服务
GPU:NVIDIA H20 96GB
# H20 核心优势:96GB 大显存 + 4TB/s 高带宽
# 虽然算力仅 148 TFLOPS(H100 的 15%),但推理看带宽
# vLLM 部署 70B INT4
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-72B \
--max-model-len 16384 \
--gpu-memory-utilization 0.9 \
--max-num-seqs 32
效果:70B INT4 单卡 90+ tok/s,支持 32 并发,月功耗约 ¥600。
第十五章 FAQ 常见问题
Q1:我只有 8GB 显存的笔记本,能跑大模型吗?
能,但需接受限制。RTX 4060 8GB 推荐 Ollama + Qwen3-8B Q5(~6.2GB 显存),速度 12-18 tok/s,日常问答和写代码够用。想跑 14B 需要 16GB 显存。如果只有核显,试试 Phi-4-mini。
Q2:32B INT4 和 70B INT4 选哪个?
如果只有 24GB 显存,只能选 32B。32B INT4(Q4_K_M)在 MMLU-Pro 上得分接近 GPT-4o-mini,翻译质量与 GPT-4o 仅差 3 处措辞。70B 需要 48GB+ 显存(双卡或服务器),但在多个任务上有显著质量提升。宁可 32B Q5 也不 70B Q2。
Q3:为什么我的 RTX 4090 跑 32B 模型只有 10 tok/s?
可能是 CUDA 版本问题。实测 CUDA 11.8 下 Qwen3-8B 仅 8 tok/s,升级到 CUDA 12.4+ 速度翻倍至 16 tok/s。32B 模型需确认使用了 Flash Attention 和正确的 GPU 层数。
Q4:Mac 和 NVIDIA 哪个更适合本地跑大模型?
-
要速度(40+ tok/s 跑 32B)→ NVIDIA RTX 4090
-
要安静(0 噪音 24×7)→ Mac Studio
-
要跑超大模型(100B+)→ Mac 128GB 统一内存
-
要出图(Stable Diffusion、Flux)→ NVIDIA 4090
Q5:双 GPU 型号不同能一起用吗?
Ollama 不支持异构多卡,要求两张卡型号完全相同(如两张 RTX 3090)。vLLM 可通过张量并行支持同代同架构的 GPU,但不能 NVIDIA + AMD 混搭。
Q6:AMD 显卡能用吗?
理论上通过 ROCm 框架支持,但实际上:
-
性能打八折(兼容层翻译损耗)
-
新模型首发经常不支持
-
报错可能是底层编译问题,社区答案少
-
结论:2026 年不建议 AMD 显卡跑大模型
Q7:量化模型质量损失到底有多大?
|
量化 |
压缩比 |
质量损失 |
推荐场景 |
|---|---|---|---|
|
Q8(8位) |
~50% |
<1% 几乎无损 |
显存充足的旗舰卡 |
|
Q5_K_M |
~65% |
1-3% 轻微 |
首选,性价比最优 |
|
Q4_K_M |
~75% |
3-5% 中等 |
显存紧张时使用 |
|
Q3_K_M |
~80% |
5-10% 明显 |
极度紧张,不推荐 |
|
Q2_K |
~85% |
10-20% 严重 |
仅测试用 |
黄金法则:能用 Q5 就用 Q5,宁可跑小模型高量化,不要跑大模型低量化。70B Q2 效果反不如 32B Q5。
第十六章 选型决策树
你的预算和场景是什么?
│
├─ ¥0(已有电脑)
│ ├─ 有 8GB+ NVIDIA 显卡 → Ollama + Qwen3-8B Q5
│ ├─ 有 16GB Mac → Ollama + Qwen3-8B Q4
│ └─ 都没有独显 → CPU 推理 Qwen3.5-0.8B 体验 / 直接用云端 API
│
├─ ¥4,000-8,000 预算
│ ├─ 全新方案 → RTX 4060 Ti 16GB + Qwen3-14B Q4(编程/问答佳)
│ ├─ 二手方案 → RTX 3060 12GB + Qwen3-8B Q5(入门够用)
│ └─ Mac 方案 → 二手 M1 Pro 16GB MacBook(仅 8B 模型)
│
├─ ¥10,000-18,000 预算 ⭐ 甜点
│ ├─ 追求极限速度 → RTX 4090 二手 + Qwen3.5-32B Q4
│ ├─ 性价比最优 → RTX 3090 二手 + Qwen3.5-32B Q4
│ ├─ Mac 静音方案 → Mac Mini M4 Pro 48GB + Qwen3-32B Q4
│ └─ 70B 入门 → 双 RTX 3090 48GB + DeepSeek-R1-70B Q4
│
├─ ¥25,000-40,000 预算
│ ├─ 消费级最强 → RTX 5090 32GB + Qwen3.5-32B 全精度
│ ├─ 70B 生产级 → 双 RTX 4090 48GB + Qwen3.5-72B Q4
│ └─ Mac 全功能 → Mac Studio M3 Max 128GB + 任意模型
│
└─ 企业级(¥10 万+)
├─ 32B 推理服务 → 1×H20 96GB 或 2×A100 80GB
├─ 70B 推理服务 → 4×A100 80GB 或 2×H100 SXM
├─ 7B-13B 训练 → 2×A100 80GB 或 4×RTX 4090
└─ 千亿推理 → 8×H200 / 8×H100 SXM
第十七章 总结与最佳实践
17.1 四句话选对配置
-
显存是第一指标:宁选大显存的低端卡(RTX 4060 Ti 16GB),不选小显存的高端卡(RTX 4070 Super 12GB)
-
24GB 是消费级甜点位:RTX 3090/4090 的 24GB 能覆盖 90% 的本地部署需求
-
32B 模型是家用天花板:Qwen3.5-32B、DeepSeek-R1-32B 能力接近 GPT-4,24GB 显存恰好装下
-
2026 年内存基线是 32GB,推荐 64GB——模型加载时系统内存不足会频繁 swap,速度断崖式下跌
17.2 核心数据速记
显存估算:参数(B) × 精度字节 × 1.2
推理瓶颈:显存带宽(首看 GB/s)
训练瓶颈:TFLOPS(首看算力)
量化首选:Q5_K_M(性价比最优)
消费甜点:RTX 3090 24GB 二手 ¥6,000
Mac 甜点:M4 Pro 48GB ¥11,999
服务器推理:H20 96GB 国内合规 + 高性价比
服务器训练:H100 SXM + NVSwitch更多推荐



所有评论(0)