第一章 核心认知:大模型硬件选型的底层逻辑

1.1 三个铁律

铁律一:显存是第一生产力。 显存不够,算力再强也加载不了模型。宁选大显存的低端卡(RTX 4060 Ti 16GB),不选小显存的高端卡(RTX 4070 Super 12GB)——后者根本加载不进去。

铁律二:推理看带宽,训练看算力。 推理是「访存密集」任务,每生成一个 token 都要读取全部模型权重,显存带宽直接决定生成速度上限。训练是「计算密集」任务,TFLOPS 是决定性因素。

铁律三:量化是消费级硬件的救星。 INT4 量化将显存需求压缩到 FP16 的 1/4,代价是 3-5% 的质量损失。对大多数场景,这个代价完全可以接受。

1.2 2026 年显存与模型速查(一句话版)

显存

能干什么

4GB

Phi-4-mini、轻量学习体验

8GB

7B-9B 模型 INT4,日常问答、写作、简单编程

16GB

14B-32B 模型 INT4,企业内用、文档分析、专业编程

24GB

32B INT4 舒适,接近 ChatGPT-4 级别能力,消费级甜点

48GB+

70B INT4 及以上,专业应用、复杂推理

80GB+

70B 全精度,千亿参数模型,生产环境高并发


第二章 显存计算核心公式(必须掌握)

2.1 推理显存估算

基础公式
显存占用 ≈ 模型参数量(B) × 精度字节数 + KV_Cache + 框架开销

精度字节数对照:

精度

每参数字节数

相对 FP16

FP32

4 字节

2x

FP16 / BF16

2 字节

1x(基准)

INT8

1 字节

0.5x

INT4

0.5 字节

0.25x

FP8

1 字节

0.5x

简化版(快速心算)
所需显存(GB) ≈ 模型参数量(B) × 量化精度/8 × 1.2

其中 1.2 是 KV Cache 和系统开销的预留系数。

实战速算表

模型规模

FP16

INT8

INT4

FP16(含开销)

INT8(含开销)

INT4(含开销)

0.5B

1GB

0.5GB

0.25GB

1.2GB

0.6GB

0.3GB

1.5B

3GB

1.5GB

0.75GB

3.6GB

1.8GB

0.9GB

3B

6GB

3GB

1.5GB

7.2GB

3.6GB

1.8GB

4B

8GB

4GB

2GB

9.6GB

4.8GB

2.4GB

7B

14GB

7GB

3.5GB

≈17GB ≈10GB ≈5GB
8B

16GB

8GB

4GB

≈19GB ≈12GB ≈6GB
9B

18GB

9GB

4.5GB

≈22GB ≈13GB ≈7GB
13B

26GB

13GB

6.5GB

≈31GB ≈17GB ≈9GB
14B

28GB

14GB

7GB

≈34GB ≈19GB ≈10GB
27B

54GB

27GB

13.5GB

≈65GB ≈35GB ≈20GB
32B

64GB

32GB

16GB

≈77GB ≈42GB ≈22GB
34B

68GB

34GB

17GB

≈82GB ≈44GB ≈24GB
70B

140GB

70GB

35GB

≈168GB ≈88GB ≈45GB
72B

144GB

72GB

36GB

≈173GB ≈90GB ≈46GB
122B

244GB

122GB

61GB

≈293GB ≈150GB ≈78GB
235B (MoE)

470GB

235GB

117.5GB

≈565GB ≈285GB ≈145GB
400B (MoE)

800GB

400GB

200GB

≈960GB ≈490GB ≈250GB
671B (MoE)

1342GB

671GB

335.5GB

≈1610GB ≈820GB ≈420GB

MoE 注意:MoE(混合专家)模型的「激活参数」远小于「总参数」。例如 Qwen3-235B-A22B 虽然总参数 235B,但每次推理只激活 22B,实际显存需求约为 235B 权重的存储 + 22B 激活的 KV Cache。

2.2 训练显存估算

训练比推理的显存需求高 3-4 倍,因为还需要存储优化器状态、梯度和中间激活值。

训练显存 ≈ 推理显存 × 3~4(全参数微调)
训练显存 ≈ 推理显存 × 1.5~2(LoRA 微调)

各模型训练显存速查(FP16 全参微调):

模型规模

推理显存

全参微调显存

LoRA 微调显存

推荐 GPU 组合

7B

≈17GB

≈50-70GB

≈25-35GB

1×A100 80GB / 2×RTX 4090

13B

≈31GB

≈90-120GB

≈45-60GB

2×A100 80GB / 4×RTX 4090

32B

≈77GB

≈230-300GB

≈100-130GB

4×A100 80GB / 4×H100

70B

≈168GB

≈500-670GB

≈220-280GB

8×A100 80GB / 8×H100

235B MoE

≈565GB

≈1.5-2TB

≈600-800GB

16×H100 80GB / 8×H200

2.3 KV Cache 精确估算

KV_Cache(GB) ≈ 2 × 层数 × 隐藏维度 × 精度字节数 × 上下文长度 / (1024³)

或简化:KV_Cache ≈ 模型参数 × 0.25 × (上下文长度 / 2048)

模型

层数

隐藏维度

4K 上下文 KV Cache

16K 上下文 KV Cache

32K 上下文 KV Cache

Qwen3-8B

32

4096

≈0.5GB

≈1.8GB

≈3.5GB

Qwen3-32B

64

5120

≈1.5GB

≈6.0GB

≈12GB

Llama 3.3 70B

80

8192

≈3.8GB

≈15GB

≈30GB

DeepSeek-V3-lite

≈1.2GB

≈5.0GB

≈10GB

⚠️ 长上下文场景下,KV Cache 可能比模型权重本身占用更大的显存。


第三章 消费级 GPU 全景对比(NVIDIA RTX 系列)

3.1 核心参数一览(2026 年 6 月市场)

型号

显存

带宽

显存类型

FP16 算力

功耗

新卡参考价

二手参考价

评级

RTX 3060 12GB

12GB

360 GB/s

GDDR6

12.7 TFLOPS

170W

¥1,900

¥900-1,200

★★★ 入门首选

RTX 4060 Ti 16GB

16GB

288 GB/s

GDDR6

22.1 TFLOPS

165W

¥3,200

¥2,500

★★★★ 大显存入门

RTX 4070 Super 12GB

12GB

504 GB/s

GDDR6X

35.5 TFLOPS

220W

¥4,800

¥3,800

★★ 显存太小

RTX 4070 Ti Super

16GB

672 GB/s

GDDR6X

44.1 TFLOPS

285W

¥6,500

¥5,000

★★★★ 中高端甜点

RTX 5060 Ti 16GB

16GB

448 GB/s

GDDR7

28.4 TFLOPS

180W

¥4,599

★★★★ 新一代入门

RTX 5070 Ti 16GB

16GB

640 GB/s

GDDR7

47.3 TFLOPS

250W

¥7,500

★★★★ 新一代主力

RTX 2080 Ti 22GB(改)

22GB

616 GB/s

GDDR6

26.9 TFLOPS

250W

¥1,800-2,500

★★★ 魔改有风险

RTX 3090 24GB

24GB

936 GB/s

GDDR6X

35.6 TFLOPS

350W

已停产

¥5,500-7,000

★★★★★ 性价比之王

RTX 4090 24GB

24GB

1,008 GB/s

GDDR6X

82.6 TFLOPS

450W

¥12,000-14,000

¥7,000-8,500

★★★★★ 全能旗舰

RTX 5090 32GB

32GB

1,792 GB/s

GDDR7

~104 TFLOPS

550W

¥14,000-16,000

极少

★★★★★ 消费级天花板

RTX 5090D V2 24GB

24GB

1,600 GB/s

GDDR7

~85 TFLOPS

500W

¥19,000

★★★★ 国内特供

RTX PRO 6000 96GB

96GB

960 GB/s

GDDR7

~91 TFLOPS

300W

~¥100,000

★★★★ 工作站级

3.2 各显卡适配模型速查(INT4 量化)

显卡

显存

7B/8B Q4

14B Q4

27B/32B Q4

70B/72B Q3

70B/72B Q4

推荐用途

RTX 3060 12GB

12GB

✅ 流畅

✅ 可用

学习、日常助手

RTX 4060 Ti 16GB

16GB

✅ 流畅

✅ 流畅

⚠️ 勉强

9B 模型甜点

RTX 4070 Ti S

16GB

✅ 流畅

✅ 流畅

⚠️ 勉强

编程助手

RTX 5060 Ti 16GB

16GB

✅ 流畅

✅ 流畅

⚠️ 勉强

新一代入门

RTX 5070 Ti 16GB

16GB

✅ 流畅

✅ 流畅

⚠️ 勉强

高性能入门

RTX 2080Ti 22G

22GB

✅ 流畅

✅ 流畅

✅ 可用

魔改性价比

RTX 3090 24GB

24GB

✅ 流畅

✅ 流畅

✅ 流畅

⚠️ 极勉强

推荐消费级之选
RTX 4090 24GB

24GB

✅ 极快

✅ 极快

✅ 流畅

⚠️ 勉强

最强消费单卡

RTX 5090 32GB

32GB

✅ 极快

✅ 极快

✅ 全精度

⚠️ Q3

消费级新王

双 RTX 3090

48GB

✅ 浪费

✅ 浪费

✅ 全精度

✅ Q3

✅ Q4

70B 最低门槛

RTX PRO 6000

96GB

✅ 浪费

✅ 浪费

✅ 全精度

✅ Q4

✅ Q4/Q6

单卡 72B 自由

图例:✅ 流畅(>15 tok/s)|✅ 可用(8-15 tok/s)|⚠️ 勉强(<8 tok/s / 上下文受限)|❌ 无法加载

3.3 消费级显卡推荐路径

预算 ¥4,000-6,000  → RTX 3060 12GB(二手 ¥1,000)/ RTX 4060 Ti 16GB(新 ¥3,200)
                    跑 7B-9B INT4,日常问答、写作足够

预算 ¥10,000-15,000 → RTX 3090 24GB(二手 ¥6,000)⭐ 强烈推荐
                    跑 32B INT4,能力接近 GPT-4,绝大多数人的甜点

预算 ¥20,000-30,000 → RTX 4090 24GB / RTX 5090 32GB
                    跑 32B 全精度或 70B INT4,消费级最强

预算 ¥30,000-50,000 → 双 RTX 3090 48GB / 双 RTX 4090
                    跑 70B 量化稳定,专业开发首选

第四章 服务器级 GPU 全景对比(A100 / H100 / H200 / L40S 等)

4.1 核心参数一览

型号

面向市场

显存

显存类型

显存带宽

FP16 算力

TF32 算力

功耗

多卡互联

定位

A100 40GB

全球

40GB

HBM2e

2,039 GB/s

312 TFLOPS

156 TFLOPS

400W

NVLink 600GB/s

入门 AI 卡

A100 80GB

全球

80GB

HBM2e

2,039 GB/s

312 TFLOPS

156 TFLOPS

500W

NVLink 600GB/s

上代性价比

A800 80GB

国内

80GB

HBM2e

2,039 GB/s

312 TFLOPS

156 TFLOPS

500W

NVLink 400GB/s(限)

国内合规版

H100 PCIe

全球

80GB

HBM3

2,000 GB/s

578 TFLOPS

289 TFLOPS

350W

PCIe 仅 32GB/s

单卡推理,别组多卡
H100 SXM

全球

80GB

HBM3

3,350 GB/s

990 TFLOPS

495 TFLOPS

700W

NVSwitch 900GB/s

当代旗舰,训练最优
H800 SXM

国内

80GB

HBM3

3,350 GB/s

990 TFLOPS

495 TFLOPS

700W

NVSwitch 400GB/s(限)

国内合规版

H200

全球

141GB

HBM3e

4,800 GB/s

990 TFLOPS

495 TFLOPS

700W

NVSwitch 900GB/s

超大显存推理
H20

国内特供

96GB

HBM3

4,000 GB/s

148 TFLOPS

74 TFLOPS

~350W

PCIe

国内推理性价比
B200

全球

192GB

HBM3e

8,000 GB/s

2,250 TFLOPS

1,000W

NVSwitch 1,800GB/s

下一代旗舰
L40S

全球

48GB

GDDR6

864 GB/s

~91 TFLOPS

300W

PCIe

轻量推理

L20

国内

48GB

GDDR6

~900 GB/s

~86 TFLOPS

275W

PCIe

国内推理入门

4.2 推理性能实测对比(7B FP16 模型)

GPU

理论速度上限

实测速度

单卡可跑最大模型(INT4)

高并发能力

L40S

~31 tok/s

~20 tok/s

27B(48GB)

一般

A100 80GB

~73 tok/s

~47 tok/s

32B 全精度

优秀

H100 SXM

~120 tok/s

~78 tok/s

32B 全精度

极强

H200

~170 tok/s

~110 tok/s

70B Q4 单卡

超强

H20

~140 tok/s

~90 tok/s

70B Q3 单卡

强(推理专用)

结论:H100 SXM 推理速度是 L40S 的 3-4 倍,差距主要来自显存带宽而非算力。H20 虽然算力仅为 H100 的 15%,但因其 96GB 大显存 + 4TB/s 高带宽,在推理场景性价比较高。

4.3 服务器级 GPU 选型决策表

场景

首选 GPU

次选

预算控制

7B-13B 推理(高并发)

A100 40GB

L40S 48GB

¥5-10 万

32B-70B 推理(单卡)

H200 141GB

H20 96GB

¥15-30 万

70B+ 推理(多卡)

4×A100 80GB

2×H100 SXM

¥30-60 万

千亿参数推理

8×H200

8×H100 SXM

¥150-300 万

7B-13B 微调训练

A100 80GB

2×RTX 4090

¥8-15 万

32B-70B 全参训练

8×H100 SXM

8×A100 80GB

¥80-150 万

70B LoRA 微调

4×A100 80GB

2×H100 SXM

¥30-50 万

预算敏感推理

H20 96GB

RTX 6000 Ada

¥10-15 万/卡

4.4 H100 SXM vs H100 PCIe —— 多卡场景天壤之别

维度

H100 SXM

H100 PCIe

显存带宽

3.35 TB/s

2.0 TB/s

FP16 算力

990 TFLOPS

578 TFLOPS

多卡互联

NVSwitch 900 GB/s

PCIe 32 GB/s(慢 28 倍!)

功耗

700W

350W

适用场景

多卡训练 / 推理

单卡推理

采购检查

须确认 SXM + NVSwitch

不适合多卡

⚠️ 踩坑实录:有团队买了 2 张 H100 PCIe 做多卡并行,结果卡间通信只有 32GB/s(SXM 版是 900GB/s),8 卡加速比仅 3.5x 而非预期的 6.5x。


第五章 苹果 Apple Silicon 统一内存方案

5.1 核心逻辑

Mac 走的是「统一内存」路线:CPU 和 GPU 共享同一块内存,没有独立显存。这意味着 Mac 可以跑 NVIDIA 方案完全加载不了的大模型,但推理速度慢于同价位的 NVIDIA 方案。

选 Mac 还是 NVIDIA?一句话:要速度选 NVIDIA,要安静省心选 Mac,要跑超大模型(100B+)选 Mac 大内存版。

5.2 苹果芯片核心 AI 参数

芯片

内存带宽

GPU 核心数

最大统一内存

等效可用显存

AI 档位

M4(基础版)

120 GB/s

10

32GB

~24GB

入门

M4 Pro

273 GB/s

20

64GB

~56GB

Pro 级

M4 Max

410-546 GB/s

32-40

128GB

~120GB

专业

M3 Pro

150 GB/s

18

36GB

~28GB

入门 Pro

M3 Max

300-400 GB/s

30-40

128GB

~120GB

专业

M3 Ultra

800 GB/s

60-80

512GB

~480GB

旗舰

M2 Ultra

800 GB/s

60-76

192GB

~180GB

上一代旗舰

5.3 各内存规格适配模型速查

统一内存

可跑模型(INT4 Q4_K_M)

实际可用显存

体验

8GB

3B 模型(Llama 3.2 3B、Phi-4 Mini)

~5GB

勉强可用,仅学习

16GB

7B-8B(Qwen3-8B、Llama 3.1 8B)

~12GB

入门甜点,日常体验佳

24GB

14B(Qwen3-14B、DeepSeek-R1-14B)

~20GB

质的飞跃,性价比甜点

36-48GB

32B(Qwen3-32B、DeepSeek-R1-32B)

~30-42GB

本地 AI 最佳体验

64-96GB

70B(Llama 3.3 70B、Qwen2.5 72B)

~55-85GB

云端 API 质量,跑在桌面

128GB+

100B+(Qwen3-235B、DeepSeek-V3)

~115GB+

无限制,想做就做

5.4 Mac 各机型实测推理速度(tok/s)

测试条件:Ollama,Q4_K_M 量化,500 tokens 输入生成 200 tokens。

设备

内存

带宽

8B 模型

14B 模型

32B 模型

70B 模型

M4 Mac Mini 16GB

16GB

120GB/s

38 tok/s

M4 Pro Mini 48GB

48GB

273GB/s

42 tok/s

24 tok/s

11 tok/s

❌ 内存不够

M3 Max MBP 64GB

64GB

300GB/s

58 tok/s

33 tok/s

15 tok/s

7.5 tok/s

M3 Max Studio 128GB

128GB

400GB/s

72 tok/s

41 tok/s

19 tok/s

9.8 tok/s

M2 Ultra Studio 192GB

192GB

800GB/s

~95 tok/s

~55 tok/s

~26 tok/s

~14 tok/s

核心结论

  •  内存带宽 > 芯片代数:M3 Max(400GB/s)跑 LLM 比 M4 Pro(273GB/s)快 30-70%

  •  70B 需要 64GB + Max 级带宽作为硬门槛

  •  48GB Mac Mini M4 Pro 是本地跑 32B 的最佳性价比(¥11,999)

  •  128GB Mac Studio 可直接跑 70B Q4 量化 42GB 权重,而 PC 单卡 24GB 完全无法对标

5.5 Mac vs NVIDIA 终极对比

维度

Mac 方案

NVIDIA 方案

最大可跑模型

100B+(大内存版)

70B INT4(双卡)/ 32B(单卡)

推理速度(32B)

12-22 tok/s

40+ tok/s(4090)

噪音

极低

中-高(风扇啸叫)

功耗(满载)

60-100W

500-1000W

静音 7×24

✅ 完美

⚠️ 需散热方案

GPU 升级

可更换

出图(SD/Flux)

慢 30-50%

适合人群

静音需求、Mac 生态、隐私优先

追求速度、可折腾、预算灵活

5.6 Mac 选购避雷

  •  ❌ M3 Pro:带宽从 M2 Pro 的 200GB/s 倒退到 150GB/s,AI 场景不如 M2 Pro

  •  ❌ 24GB 内存版任何 Mac:2026 年入门 32B 都不够

  •  ❌ M4 基础版:16GB 只能跑 8B,不划算

  •  ❌ Intel Mac:不支持 Metal LLM 加速

  •  ✅ 首选:M4 Pro 48GB Mac Mini(预算 ¥12,000)或 M3 Max 64GB Mac Studio(预算 ¥15,000-20,000)


第六章 主流大模型 × 硬件适配完整对照表

6.1 2026 年六大主流开源模型硬件需求总表(INT4 Q4_K_M 量化)

模型

参数量

INT4 权重

推荐最低显存

推荐单卡

推荐多卡

实测速度(t/s)

DeepSeek-R1 1.5B

1.5B

~1GB

4GB

核显即可

50+

Qwen3.5-0.8B

0.8B

~0.5GB

无需独显

CPU+16GB 内存

60+

Phi-4 Mini

3.8B

~2.5GB

4GB

RTX 3060

25-35

Gemma 3

4B

~3.2GB

8GB

RTX 3060

30-45

Qwen3-8B

8B

~5GB

8GB

RTX 3060 12GB

40-55(4090)

Llama 3.1 8B

8B

~4.5GB

8GB

RTX 3060 12GB

45-60(4090)

DeepSeek-R1-Distill-8B

8B

~4.5GB

8GB

RTX 3060 12GB

35-50

GLM-Z1-9B

9B

~5.5GB

8GB

RTX 3060 12GB

45-60(4090)

Qwen3-14B

14B

~9GB

12GB

RTX 3060 12GB

25-40(4090)

DeepSeek-R1-Distill-14B

14B

~8.5GB

12GB

RTX 3060 12GB

20-35

Qwen3-Coder-30B-A3B

30B MoE

~2.5GB

8GB

RTX 3060

40-60

DeepSeek-V3-lite

16B

~6.8GB

8GB

RTX 3060

25-40

Qwen3-27B

27B(Dense)

~18GB

24GB

RTX 3090/4090

20-30(4090)

Qwen3.5-32B

32B

~18GB

24GB

RTX 4090 24GB

25-40(4090)

DeepSeek-R1-Distill-32B

32B

~19GB

24GB

RTX 3090/4090

15-22

GLM-Z1-32B

32B

~18GB

24GB

RTX 3090/4090

20-30

Yi-1.5-34B

34B

~20GB

24GB

RTX 3090/4090

15-20

DeepSeek-V3.2 蒸馏32B

32B

~20GB

24GB

RTX 4090 24GB

20-30

Qwen3.5-72B

72B

~42GB

48GB+

H20 96GB

双 3090 48GB

8-12(双 3090)

Llama 3.3 70B

70B

~40GB

48GB+

H200 141GB

双 4090 48GB

8-15(双 4090)

DeepSeek-R1-Distill-70B

70B

~40GB

48GB+

H20 96GB

双 4090 48GB

8-14

Qwen3.5-122B

122B

~74GB

80GB+

A100 80GB

4×A100

5-10

Qwen3-235B-A22B

235B MoE

~88GB

96GB+

H200 141GB

4×A100

5-10

DeepSeek-V3.2

685B MoE

~340GB(FP8)

400GB+

8×H100 80GB

15-30

Llama 4 Maverick

400B MoE

~200GB(INT4)

200GB+

4×H200

10-20

说明:实测速度为单卡最大可用显存下的参考数据,实际速度受推理框架、上下文长度、batch size 等因素影响。

6.2 按显存容量反向选模型(消费级)

你的显存

推荐模型(INT4)

体验等级

4GB

Phi-4-Mini、Gemma 3 4B

⭐⭐ 入门体验

8GB

Qwen3-8B、Llama 3.1 8B、DeepSeek-V3-lite

⭐⭐⭐ 日常可用

12GB

Qwen3-14B、DeepSeek-R1-14B

⭐⭐⭐⭐ 质的提升

16GB

14B 全精度、32B 量化(勉强)

⭐⭐⭐⭐ 足够好用

24GB

Qwen3.5-32B、DeepSeek-R1-32B

⭐⭐⭐⭐⭐ 消费级甜点

32GB

32B 全精度、MoE 模型

⭐⭐⭐⭐⭐ 接近天花板

48GB+

70B-72B INT4

⭐⭐⭐⭐⭐ 云端级质量

6.3 按使用场景推荐模型+硬件组合

使用场景

推荐模型

推荐硬件

预算

日常问答 / 写作

Qwen3-8B Q5

RTX 3060 12GB / M4 16GB

¥5,000-8,000

编程助手

Qwen3.5-32B Q4 / DeepSeek-V3-16B

RTX 3090 24GB

¥10,000-15,000

中文创作 / 翻译

Qwen3.5-32B Q4

RTX 4090 24GB / M4 Pro 48GB

¥12,000-18,000

数学推理 / 竞赛

DeepSeek-R1-32B Q4

RTX 3090 24GB

¥10,000-15,000

长文档分析

Yi-1.5-34B Q4(200K 上下文)

RTX 3090 24GB

¥10,000-15,000

知识库 / RAG

Qwen3.5-32B Q4 + BGE-M3 Embedding

RTX 3090 24GB

¥10,000-15,000

多模态 / 视觉

Qwen3-VL-8B

RTX 4060 Ti 16GB

¥8,000-12,000

企业级智能客服

Qwen3.5-72B Q4

H20 96GB / 双 3090

¥15,000-30,000

超长上下文(10M)

Llama 4 Scout 109B Q2

RTX 4090 24GB / MAC 128GB

¥15,000-40,000

追求高质量输出

Qwen3.5-72B Q4

Dual RTX 4090 / M4 Max 128GB

¥25,000-35,000


第七章 训练 vs 推理:硬件需求的核心差异

7.1 总览

维度

推理(Inference)

训练/微调(Training/Fine-tuning)

瓶颈资源

显存带宽(GB/s)

算力(TFLOPS) + 显存容量

显存需求倍数

1x

3-4x(全参) / 1.5-2x(LoRA)

对量化精度敏感度

低(INT4 可用)

高(需要 BF16/FP16)

推荐 GPU 类型

大显存 + 高带宽

高算力 + 大显存 + NVLink

关键特性

PagedAttention、Flash Attention

Tensor Cores、NVLink 互联

消费级可行性

✅ 完全可行

⚠️ 仅小模型(<13B)

量化是否推荐

✅ 强烈推荐 INT4/INT8

⚠️ 训练用 BF16/FP16,QLoRA 可用 INT4

7.2 训练显存详细估算

全参数微调显存 ≈ 模型权重 + 优化器状态(2×权重)+ 梯度(1×权重)+ 激活值
               ≈ 4× 模型权重(FP16)+ 激活值

LoRA 微调显存 ≈ 模型权重 + LoRA 适配器 + 激活值
              ≈ 1.2× 模型权重(FP16)+ 激活值

各模型训练所需 GPU 组合:

模型

全参微调(FP16)

LoRA 微调(FP16)

QLoRA(INT4)

Qwen3-8B

1×A100 80GB(60GB)

1×RTX 4090 24GB(22GB)

1×RTX 3090 24GB(15GB)

Qwen3-14B

2×A100 80GB(110GB)

1×A100 80GB(40GB)

1×RTX 4090 24GB(22GB)

Qwen3.5-32B

4×A100 80GB(250GB)

2×A100 80GB(100GB)

1×RTX 4090 24GB(24GB)

Qwen3.5-72B

8×A100 80GB(550GB)

4×A100 80GB(220GB)

2×RTX 4090 48GB(45GB)

7.3 租赁 GPU 避坑

实际情况

避坑方案

预估 3 天跑完,实际 5 天

GPU 租赁「按卡时计费」,含调试空闲时间

调试用 T4/V100,正式跑用 A100/H100

竞价实例便宜但被中断

价格低 50-70% 但随时可能被回收

配合 Checkpoint 断点续训

数据加载拖慢训练

GPU 利用率仅 30%,大部分时间等 I/O

预加载到内存、用高速 NVMe

8 卡 ≠ 8x 速度

PCIe 版多卡加速比仅 3.5x

SXM + NVSwitch 可达 6.5x


第八章 多 GPU 并行方案实战

8.1 互联技术对比

技术

带宽

适用 GPU

性价比

适合

PCIe 4.0 ×16

32 GB/s

所有消费级 GPU

数据并行、单卡推理

PCIe 5.0 ×16

64 GB/s

RTX 50 系

数据并行

NVLink 3.0

600 GB/s

A100

张量并行、多卡推理

NVLink 4.0

900 GB/s

H100 SXM

大规模训练

NVSwitch

900 GB/s per link

H100 SXM(全互联)

最低

8 卡训练集群

8.2 多卡加速比实测

互联方式

2 卡

4 卡

8 卡

PCIe Gen4

1.6x

2.5x

3.5x

NVLink 4.0

1.8x

3.2x

5.5x

NVSwitch + 优化

1.9x

3.5x

6.5x

⚠️ 核心教训:8 卡通常只能达到 5-6.5 倍加速,不要期望线性增长。优先选单卡能力强的 GPU 比堆卡数更划算。

8.3 双卡消费级显卡部署 70B 模型

# Ollama 双 GPU 配置
# 先设置环境变量
export OLLAMA_NUM_GPU=2

# 拉取 70B 量化模型
ollama pull deepseek-r1:70b-q4_K_M

# 运行
ollama run deepseek-r1:70b-q4_K_M

注意事项

  •  两张卡必须相同型号(如两张 RTX 3090),Ollama 不支持异构多卡

  •  如果只有一张 NVIDIA + CPU 共享内存模式,可限制 GPU 层数:
    ollama run deepseek-r1:70b --num-gpu-layers 40
    
  •  电源必须够——双 3090 满载功耗 ~700W,建议 1200W 金牌以上电源


第九章 各预算档位完整配置方案(2026 年 6 月)

方案 A:零成本入门 —— 无需独显

硬件

推荐型号

价格

CPU

Intel i3 / 任意双核以上

利用现有

内存

16GB DDR4

利用现有

存储

256GB SSD

利用现有

显卡 无需独显(CPU 推理) ¥0

可跑模型

Qwen3.5-0.8B(Q4 不到 1GB)

推理速度

5-10 tok/s

能做什么

体验本地 AI 是什么感觉,简单问答、翻译

总预算 利用现有硬件

💡 建议:如果只是体验,不如直接用云端 API(如 DeepSeek API 免费额度)。


方案 B:入门学习型 —— 预算 ¥4,000-6,000 ⭐

目标:流畅运行 7B-9B INT4 量化模型

配件

推荐型号

价格

CPU

Intel i5-12400F / AMD R5 5600

¥600-800

显卡 RTX 3060 12GB(二手)

 或 RTX 4060 Ti 16GB(新)

¥1,200 / ¥3,200

内存

32GB DDR4 3200MHz

¥400

存储

1TB NVMe SSD

¥400

主板

B660M / B550M

¥500

电源

650W 铜牌

¥350

机箱

普通 ATX

¥200

合计

¥3,650-5,850

性能表现:DeepSeek-R1-7B 30-45 tok/s,日常对话流畅,代码补全延迟 < 1 秒。


方案 C:进阶主力型 —— 预算 ¥12,000-18,000 ⭐⭐ 强烈推荐

目标:流畅运行 14B-32B INT4 量化模型

配件

推荐型号

价格

CPU

Intel i7-13700F / AMD R7 7800X3D

¥1,800-2,500

显卡 RTX 3090 24GB(二手) ¥6,000

内存

64GB DDR5 5600MHz

¥1,200

存储

2TB NVMe Gen4 SSD

¥800

主板

Z790 / B650

¥1,200

电源

1000W 金牌全模组

¥800

散热

360 水冷(3090 发热量巨大)

¥500

机箱

中塔通风机箱

¥400

合计

¥12,700-13,400

为什么是 3090 而不是 4090? RTX 3090 的 24GB 显存与 4090 相同,LLM 推理场景下显存大小比算力重要得多。3090 的 936 GB/s 带宽跑 32B INT4 绰绰有余,价格只有 4090 的一半。

性能表现:Qwen3.5-32B INT4 约 18-25 tok/s,可同时跑 RAG 知识库 + 对话 Agent。


方案 D:性能发烧型 —— 预算 ¥25,000-35,000

目标:流畅运行 70B 量化模型或 32B 全精度

配件

价格

RTX 5090 32GB(单卡)

¥14,000

或 双 RTX 3090 24GB(双卡 48GB)

¥12,000

其余配件(CPU、内存、主板、电源等)

¥13,000-15,000

合计 ¥25,000-29,000

方案

显存

优势

劣势

单 RTX 5090 32GB

32GB

省心、驱动稳、低功耗,32B 全精度跑满

价格高

双 RTX 3090 48GB

48GB

便宜,能完整跑 70B INT4(~42GB)

功耗 700W+,部分模型需手动并行配置

性能表现:双 3090 跑 DeepSeek-R1-70B INT4 约 8-12 tok/s,速度不快但能用。单 5090 跑 Qwen3.5-32B 全精度约 35-50 tok/s。


方案 E:Mac 静音方案

设备

统一内存

可跑模型

价格

推荐度

Mac Mini M4 Pro 48GB

48GB

32B 全精度

¥11,999

⭐⭐⭐⭐⭐ 最佳性价比

Mac Studio M3 Max 64GB

64GB

70B INT4

¥18,000-20,000

⭐⭐⭐⭐ 跑 70B 甜点

Mac Studio M3 Max 128GB

128GB

100B+ Q4

¥28,000-32,000

⭐⭐⭐⭐ 无限制

MacBook Pro M4 Max 48GB

48GB

32B 全精度

¥25,999

⭐⭐⭐⭐ 移动首选


方案 F:企业服务器方案

目标

推荐配置

月租(云)

采购(自建)

7B-13B 高并发推理

1×A100 80GB

¥8,000-12,000/月

¥15-25 万

32B 推理服务

1×H20 96GB 或 2×A100 80GB

¥5,000-10,000/月

¥10-20 万

70B 推理服务

4×A100 80GB 或 2×H100 SXM

¥25,000-40,000/月

¥40-60 万

千亿参数推理

8×H200

¥150,000-200,000/月

¥200-300 万


第十章 云 GPU vs 自建硬件成本对比

10.1 各服务商价格参考(2026 年 6 月)

服务商

配置

价格

适合

AutoDL

RTX 3090 24GB

¥1,500-2,000/月(按量)

个人开发者、实验

AutoDL

A100 40GB

¥4,000-5,000/月(按量)

中小团队训练

阿里云 PAI

A100 80GB

¥8,000-12,000/月

企业生产

腾讯云 GPU

GN10Xp 24GB

¥6,000-9,000/月

企业推理服务

AWS

g4dn.xlarge 16GB

$600-800/月

海外业务

AWS

p4d.24xlarge 8×A100

$32/小时

大规模训练

10.2 自建 vs 租赁盈亏平衡点

自建成本 ¥15,000(RTX 3090 整机)
÷ AutoDL 租赁 ¥1,800/月
= 8.3 个月回本

如果每天使用超过 4 小时 → 自建更划算
如果偶尔实验/项目驱动    → 租赁更灵活

建议路径

  1.  学习/实验阶段:AutoDL 按量付费,先用 T4/V100 调通代码

  2.  开发/迭代阶段:自建一台 RTX 3090/4090 主力机

  3.  生产部署阶段:企业云服务(阿里云/腾讯云)+ SLA 保障


第十一章 部署工具与框架硬件适配

11.1 三大工具硬件效率对比

工具

推理速度(8B INT4, RTX 4090)

显存效率

并发能力

适合

Ollama(llama.cpp 后端)

40-55 tok/s

⭐⭐⭐ 中等

❌ 串行排队

个人使用、API 服务

vLLM

60-80 tok/s

⭐⭐⭐⭐⭐ 最高

✅ 真并发(50-100)

生产环境高并发

LM Studio

35-50 tok/s

⭐⭐ 较高开销

❌ 无 API

非技术人员、GUI

MLX-LM

(Mac专用)

45-70 tok/s(Mac)

⭐⭐⭐⭐ 高

❌ 单会话

Mac 极致速度

11.2 框架选型决策

你是开发者吗?
├─ 是 → 需要高并发吗?
│      ├─ 是 → vLLM + Docker + NVIDIA GPU
│      └─ 否 → Ollama(一行命令,OpenAI 兼容 API)
└─ 否 → LM Studio(GUI 操作,点点鼠标)

vLLM 并发实测(Qwen2.5-1.5B,T4 16GB):

并发数

KV Cache 使用量

Token 总量

1

0.254 GB

1 万

5

1.280 GB

5 万

10

2.572 GB

10 万

11

2.821 GB(接近上限)

11 万

结论:vLLM 的 PagedAttention 技术使相同显存下,并发能力比传统推理强约 6 倍。


第十二章 显存不足时的优化策略

12.1 优先级排序

优先级

策略

效果

代价

1

提高量化级别

(FP16 → INT4)

显存降至 1/4

质量降 3-5%

2

缩短上下文长度

(32K → 8K)

KV Cache 减少 75%

长文分析能力下降

3

GPU 层数限制

(num-gpu-layers)

用 CPU 内存补偿

速度降至 2-5 tok/s

4

换更小的模型

(32B → 14B → 8B)

显著降低显存

能力下降

5

换用 vLLM

提升 20-30% 显存效率

学习成本

12.2 GPU Offloading 实战

# Ollama 部分层回退到 CPU 内存
ollama run qwen3.5:32b --num-gpu-layers 20
# 仅前 20 层在 GPU,其余在 CPU 内存
# 显存压力↓,但速度断崖式跌到 2-5 tok/s

# vLLM 限制 GPU 显存使用率
vllm serve /path/to/model --gpu-memory-utilization 0.7
# 仅使用 70% GPU 显存,剩余依赖 CPU swap

第十三章 避坑大全

13.1 显卡选购避坑

说明

避坑方案

❌ RTX 4070 Super 12GB

显存太小,14B 模型装不下

加钱上 3090 24GB 或 4060 Ti 16GB

❌ RTX 4060 8GB

仅 8GB,只能跑小模型

至少选 12GB 版或 Ti 16GB

❌ T4 16GB

算力 7.5,不支持 BF16/FlashAttention-2

宁选 RTX 3060 也不选 T4

❌ A10 24GB

推理训练性能差

同预算选 RTX 3090

❌ 魔改 2080Ti 22GB

脱焊、掉驱动、无保修

除非动手能力极强,否则远离

❌ 矿卡翻新 4090

BIOS 被刷、寿命未知

京东自营 / 官方认证二手

❌ AMD 显卡

ROCm 兼容性差,新模型首发用不了

老老实实 NVIDIA CUDA 生态

✅ RTX 3090 二手

24GB + 936GB/s,¥6,000

性价比之王,注意验 3DMark 压力测试

✅ RTX 5090

32GB GDDR7 消费旗舰

预算充足一步到位

13.2 Mac 选购避坑

避坑

原因

❌ M3 Pro

带宽从 M2 Pro 200GB/s 倒退到 150GB/s

❌ 24GB 以下统一内存

2026 年连 32B Q4 都跑不畅

❌ M4 基础版

16GB 仅够 8B 模型

❌ Intel Mac

不支持 Metal LLM 加速

❌ 闲鱼「美版全新便宜 30%」

大概率贴牌翻新或保修失效

✅ M4 Pro 48GB Mac Mini

¥11,999,32B 本地 AI 最佳性价比

✅ M3 Max 64GB Mac Studio

二手/官翻 ¥15,000-20,000,70B 入门甜点

13.3 服务器避坑

实例

解决方案

只算算力不算显存

买了 2×A100 40GB(共 80GB)想跑 70B FP16(需 140GB+80GB 开销)

先算显存需求!公式见第二章

H100 PCIe 还是 SXM 分不清

PCIe 版多卡通信 32GB/s,SXM 900GB/s

多卡必选 SXM + NVSwitch

8 卡 ≠ 8x 速度

PCIe 版 8 卡加速比仅 3.5x

SXM 版可达 6.5x

忽略显存带宽

L40S(864GB/s)跑 7B 仅 20 tok/s,预期 100

推理看带宽,优先选 HBM 系列

租赁 GPU 预算超支

预估 3 天实际 5 天

调试用便宜卡,正式跑用高性能卡


第十四章 五个热门实操案例

案例 14.1:¥6,000 打造 AI 编程工作站

需求:用 RTX 3090 24GB 搭建本地编程助手,替代 GitHub Copilot

配置

# 系统:Ubuntu 24.04 + RTX 3090 24GB
# 框架:Ollama

# 1. 部署编程专用模型
ollama pull qwen3.5-coder:32b-q4_K_M

# 2. 配置 VS Code Continue 扩展
# settings.json:
{
"models": [{
"title": "Local Qwen3.5-Coder",
"provider": "ollama",
"model": "qwen3.5-coder:32b-q4_K_M"
  }]
}

# 3. Claude Code 接入
export ANTHROPIC_BASE_URL="http://localhost:11434/v1"
export ANTHROPIC_API_KEY="ollama"
claude

效果:32B 模型代码补全延迟 < 2 秒,中等难度 LeetCode 通过率 31%。


案例 14.2:双 3090 跑 70B 模型

需求:在消费级硬件上体验 GPT-4 级别能力

配置

# 硬件:2× RTX 3090 24GB + 1200W 电源
# 系统:Ubuntu 24.04

# 1. 确保两张卡型号相同
nvidia-smi  # 确认两张都是 RTX 3090

# 2. 配置 Ollama 双卡
export OLLAMA_NUM_GPU=2

# 3. 拉取 70B 量化模型
ollama pull deepseek-r1:70b-q4_K_M

# 4. 运行
ollama run deepseek-r1:70b-q4_K_M

效果:Q4_K_M 量化权重约 40GB(每张卡 20GB),推理速度 8-12 tok/s,上下文 8K。速度不快但质量到位。


案例 14.3:Mac Mini M4 Pro 48GB 打造静音 AI 工作站

需求:安静的本地 AI,24×7 运行,不限流

配置:Mac Mini M4 Pro 48GB + 外接 2TB NVMe 雷雳 4 硬盘盒

# 1. 安装 Ollama
brew install ollama

# 2. 模型常驻内存(Agent 场景必开)
OLLAMA_KEEP_ALIVE=1h ollama serve

# 3. 拉取模型
ollama pull qwen3:32b-q4_K_M
ollama pull llama3.1:8b-q4_K_M  # 快速模型备用
ollama pull nomic-embed-text     # RAG Embedding

# 4. 国内加速
export OLLAMA_REGISTRY="https://hf-mirror.com"

效果:32B 模型 11 tok/s,满载功耗 65W,静音无感,全年电费不到 ¥300(按 ¥0.6/度算)。


案例 14.4:企业级 RAG 知识库方案

需求:搭建企业私有知识库,支持 50 人并发查询

硬件方案:1×A100 80GB + 1TB NVMe SSD

# 架构:vLLM (推理) + LangChain (RAG) + ChromaDB (向量库)

# 1. vLLM 推理服务
vllm serve Qwen/Qwen3.5-32B-Instruct \
    --max-model-len16384 \
    --gpu-memory-utilization 0.85 \
    --tensor-parallel-size 1

# 2. Embedding 模型
# BGE-M3 占用约 2GB,预留显存

# 3. RAG Pipeline
from langchain_community.vectorstores import Chroma
from langchain_huggingface import HuggingFaceEmbeddings

embedding = HuggingFaceEmbeddings(
    model_name="BAAI/bge-m3",
    model_kwargs={"device": "cuda"}
)

# 4. 链式调用
from langchain.chains import RetrievalQA
qa_chain = RetrievalQA.from_chain_type(
    llm=vllm_llm,
    retriever=vector_store.as_retriever()
)

硬件需求总结:32B 推理 22GB + Embedding 2GB + 向量库预留 16GB + KV Cache + 并发 = 建议 80GB 显存起步(A100 正好)。


案例 14.5:低成本服务器推理方案(H20)

需求:国内合规、高性价比的 70B 推理服务

GPU:NVIDIA H20 96GB

# H20 核心优势:96GB 大显存 + 4TB/s 高带宽
# 虽然算力仅 148 TFLOPS(H100 的 15%),但推理看带宽

# vLLM 部署 70B INT4
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-72B \
    --max-model-len 16384 \
    --gpu-memory-utilization 0.9 \
    --max-num-seqs 32

效果:70B INT4 单卡 90+ tok/s,支持 32 并发,月功耗约 ¥600。


第十五章 FAQ 常见问题

Q1:我只有 8GB 显存的笔记本,能跑大模型吗?

,但需接受限制。RTX 4060 8GB 推荐 Ollama + Qwen3-8B Q5(~6.2GB 显存),速度 12-18 tok/s,日常问答和写代码够用。想跑 14B 需要 16GB 显存。如果只有核显,试试 Phi-4-mini。

Q2:32B INT4 和 70B INT4 选哪个?

如果只有 24GB 显存,只能选 32B。32B INT4(Q4_K_M)在 MMLU-Pro 上得分接近 GPT-4o-mini,翻译质量与 GPT-4o 仅差 3 处措辞。70B 需要 48GB+ 显存(双卡或服务器),但在多个任务上有显著质量提升。宁可 32B Q5 也不 70B Q2。

Q3:为什么我的 RTX 4090 跑 32B 模型只有 10 tok/s?

可能是 CUDA 版本问题。实测 CUDA 11.8 下 Qwen3-8B 仅 8 tok/s,升级到 CUDA 12.4+ 速度翻倍至 16 tok/s。32B 模型需确认使用了 Flash Attention 和正确的 GPU 层数。

Q4:Mac 和 NVIDIA 哪个更适合本地跑大模型?

  •  要速度(40+ tok/s 跑 32B)→ NVIDIA RTX 4090

  •  要安静(0 噪音 24×7)→ Mac Studio

  •  要跑超大模型(100B+)→ Mac 128GB 统一内存

  •  要出图(Stable Diffusion、Flux)→ NVIDIA 4090

Q5:双 GPU 型号不同能一起用吗?

Ollama 不支持异构多卡,要求两张卡型号完全相同(如两张 RTX 3090)。vLLM 可通过张量并行支持同代同架构的 GPU,但不能 NVIDIA + AMD 混搭。

Q6:AMD 显卡能用吗?

理论上通过 ROCm 框架支持,但实际上:

  •  性能打八折(兼容层翻译损耗)

  •  新模型首发经常不支持

  •  报错可能是底层编译问题,社区答案少

  •  结论:2026 年不建议 AMD 显卡跑大模型

Q7:量化模型质量损失到底有多大?

量化

压缩比

质量损失

推荐场景

Q8(8位)

~50%

<1% 几乎无损

显存充足的旗舰卡

Q5_K_M

~65%

1-3% 轻微

首选,性价比最优

Q4_K_M

~75%

3-5% 中等

显存紧张时使用

Q3_K_M

~80%

5-10% 明显

极度紧张,不推荐

Q2_K

~85%

10-20% 严重

仅测试用

黄金法则:能用 Q5 就用 Q5,宁可跑小模型高量化,不要跑大模型低量化。70B Q2 效果反不如 32B Q5。


第十六章 选型决策树

你的预算和场景是什么?
│
├─ ¥0(已有电脑)
│  ├─ 有 8GB+ NVIDIA 显卡 → Ollama + Qwen3-8B Q5
│  ├─ 有 16GB Mac → Ollama + Qwen3-8B Q4
│  └─ 都没有独显 → CPU 推理 Qwen3.5-0.8B 体验 / 直接用云端 API
│
├─ ¥4,000-8,000 预算
│  ├─ 全新方案 → RTX 4060 Ti 16GB + Qwen3-14B Q4(编程/问答佳)
│  ├─ 二手方案 → RTX 3060 12GB + Qwen3-8B Q5(入门够用)
│  └─ Mac 方案 → 二手 M1 Pro 16GB MacBook(仅 8B 模型)
│
├─ ¥10,000-18,000 预算 ⭐ 甜点
│  ├─ 追求极限速度 → RTX 4090 二手 + Qwen3.5-32B Q4
│  ├─ 性价比最优 → RTX 3090 二手 + Qwen3.5-32B Q4
│  ├─ Mac 静音方案 → Mac Mini M4 Pro 48GB + Qwen3-32B Q4
│  └─ 70B 入门 → 双 RTX 3090 48GB + DeepSeek-R1-70B Q4
│
├─ ¥25,000-40,000 预算
│  ├─ 消费级最强 → RTX 5090 32GB + Qwen3.5-32B 全精度
│  ├─ 70B 生产级 → 双 RTX 4090 48GB + Qwen3.5-72B Q4
│  └─ Mac 全功能 → Mac Studio M3 Max 128GB + 任意模型
│
└─ 企业级(¥10 万+)
   ├─ 32B 推理服务 → 1×H20 96GB 或 2×A100 80GB
   ├─ 70B 推理服务 → 4×A100 80GB 或 2×H100 SXM
   ├─ 7B-13B 训练 → 2×A100 80GB 或 4×RTX 4090
   └─ 千亿推理 → 8×H200 / 8×H100 SXM

第十七章 总结与最佳实践

17.1 四句话选对配置

  1.  显存是第一指标:宁选大显存的低端卡(RTX 4060 Ti 16GB),不选小显存的高端卡(RTX 4070 Super 12GB)

  2.  24GB 是消费级甜点位:RTX 3090/4090 的 24GB 能覆盖 90% 的本地部署需求

  3.  32B 模型是家用天花板:Qwen3.5-32B、DeepSeek-R1-32B 能力接近 GPT-4,24GB 显存恰好装下

  4.  2026 年内存基线是 32GB,推荐 64GB——模型加载时系统内存不足会频繁 swap,速度断崖式下跌

17.2 核心数据速记

显存估算:参数(B) × 精度字节 × 1.2
推理瓶颈:显存带宽(首看 GB/s)
训练瓶颈:TFLOPS(首看算力)
量化首选:Q5_K_M(性价比最优)
消费甜点:RTX 3090 24GB 二手 ¥6,000
Mac 甜点:M4 Pro 48GB ¥11,999
服务器推理:H20 96GB 国内合规 + 高性价比
服务器训练:H100 SXM + NVSwitch
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐