大模型训练显存快速计算办法

若再启用 QLoRA / ZeRO-3 / 梯度检查点，可在上表基础上继续砍半甚至更多。如需更精确的数字，可把 batch、seq、层数代入 activation 公式。以下两套「拿来即用」的显存估算公式，并分别用 14 B 模型举例。四、一张速查表（FP16 + AdamW）” 即可粗略得出 SFT 峰值显存需求。显存 ≈ 静态占用＋动态占用。二、SFT（全参数微调）示例。为缺省条件，单位

ManHanBoy

424人浏览 · 2025-08-07 14:41:01

ManHanBoy · 2025-08-07 14:41:01 发布

以下两套「拿来即用」的显存估算公式，并分别用 14 B 模型举例。
所有数字都以 单卡、混合精度（FP16/BF16）、AdamW 优化器 为缺省条件，单位 GB。

一、通用估算框架
显存 ≈ 静态占用＋动态占用

表格

复制

组成项	静态/动态	公式（单位：字节）	说明
Model 权重	静态	Φ × 2	14 B 模型 ⇒ 28 GB
Grad 梯度	静态	Φ × 2	14 B 模型 ⇒ 28 GB
Adam States	静态	Φ × 8（一阶+二阶 FP32）	14 B 模型 ⇒ 112 GB
Activation	动态	f(batch, seq, layers)	经验≈ 10–30 GB（可调）
框架/缓存	–	预留 5–10 GB	–

Φ = 参数量；14 B ⇒ Φ = 1.4 × 10¹⁰。

二、SFT（全参数微调）示例

代入公式

复制

静态 = (2 + 2 + 8) × Φ = 12 × Φ
     = 12 × 14 GB ≈ 168 GB
动态 = 20 GB（batch=1, seq=2048 经验值）
框架 = 8 GB
总计 ≈ 196 GB

快速记忆法
“12 × 参数量 GB” 即可粗略得出 SFT 峰值显存需求。
14 B ⇒ 约 200 GB；7 B ⇒ 约 100 GB。

三、LoRA 示例

LoRA 只训练 低秩矩阵，设秩 r=16、α=32，常见比例：

表格

复制

项目	占用比例	14 B 模型占用
可训练参数	0.1 %	0.014 B ⇒ 28 MB
Model 权重（冻结）	100 %	28 GB
Grad	0.1 %	0.014 B × 2 B ≈ 28 MB
Adam States	0.1 %	0.014 B × 8 B ≈ 112 MB
Activation	与 SFT 类似	20 GB
框架/缓存	–	8 GB
总计	–	≈ 56 GB

经验公式：
LoRA 峰值显存 ≈ 2 × 参数量 GB + 20 GB
14 B ⇒ 约 50–60 GB；7 B ⇒ 约 35 GB。

四、一张速查表（FP16 + AdamW）

表格

复制

方法	7 B	14 B	70 B
SFT 全参	≈ 100 GB	≈ 200 GB	≈ 1 TB
LoRA	≈ 35 GB	≈ 55 GB	≈ 180 GB
QLoRA-4bit	≈ 12 GB	≈ 24 GB	≈ 80 GB

如需更精确的数字，可把 batch、seq、层数代入 activation 公式
Activation ≈ 34 × b × s × h + 5 × b × s² × a × L。

结论

SFT 全参数：简单记为 12 × 模型大小 GB；
LoRA：简单记为 2 × 模型大小 GB + 20 GB；
若再启用 QLoRA / ZeRO-3 / 梯度检查点，可在上表基础上继续砍半甚至更多。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

悟空 AI CRM 客户功能：深度洞察与精细化管理，赋能企业增长

在当今激烈的市场竞争环境中，客户资源作为企业的核心资产，其管理和运营的质量直接关系到企业的生存与可持续发展。一个高效且智能的客户关系管理系统（CRM）成为了企业不可或缺的工具，而悟空 AI CRM 正是这样一款集前沿科技与人性化设计于一身的 CRM 解决方案。它通过深度洞察客户需求、精细化管理客户关系，为企业提供了全方位的客户管理支持，助力企业在竞争中脱颖而出。

2048 AI社区

AI时代的人类认知进化与能力重塑：未来生存指南

AI不是人类的对手，而是认知加速器。未来社会的核心竞争力，不再是职位或技能，而是认知能力、创造力、系统思维和价值判断。工具改变效率，思维决定未来；信息触手可及，深度认知才有价值；AI可以执行，人类定义意义。未来属于能够驾驭智能、重塑认知、持续创造的人思考、创新、价值创造，是人类在AI时代永恒不变的核心资产。

2048 AI社区

UVa 1724 Solitaire

本文研究8×8棋盘上4个相同棋子的移动问题，允许普通移动和跳跃移动。给定初始和目标配置，判断能否在最多8步内转换。采用双向BFS算法优化搜索，将状态编码为排序的位置集合，通过生成所有可能移动来扩展搜索。算法利用哈希集合存储已访问状态，当两个搜索方向相遇时判定可达。复杂度分析表明双向BFS将状态空间从O(b^d)降至O(b^(d/2))，在合理时间内解决问题。关键技术包括状态编码、移动生成规则和双向