4090 也能跑 70B？显存优化黑科技完整揭秘

摘要：本文探讨了在显存受限条件下微调大模型的技术方案。通过量化技术（如INT4、LLM.int8()、GPTQ）、梯度检查点与累积、优化器状态管理（8-bit优化器、分页优化器）等方法，可显著降低显存需求。实践表明，组合使用QLoRA、PagedAdamW等技术后，单张24GB显存的RTX4090也能微调70B参数模型。这些优化方案使个人开发者和小团队也能参与大模型微调，突破了硬件限制的瓶颈。

大模型探索者肠肠

577人浏览 · 2026-01-23 17:16:44

大模型探索者肠肠 · 2026-01-23 17:16:44 发布

对于很多个人开发者和小型团队来说，显存不足是阻碍大模型微调的第一道门槛。动辄数百GB的显存要求，仿佛将微调变成了只有科技巨头才能涉足的领域。但事实上，通过一系列精心设计的显存优化技术，即使是在消费级显卡上，也能够微调相当规模的大模型。这些技术的核心思路是：用计算换空间，用精度换容量，用技巧突破硬件限制。本文将深入剖析这些显存优化黑科技，让"用小显卡跑大模型"不再是遥不可及的梦想。

量化技术：用更低精度存储更大模型

量化技术的基本原理是用较低精度的数值表示来近似原始的高精度权重，从而减少模型的显存占用。最常见的量化方案是将原始的 FP32（32位浮点数）或 FP16（16位半精度浮点数）压缩为 INT8（8位整数）甚至 INT4（4位整数）。理论上，FP32 转为 INT8 可以减少 4 倍显存，而 INT4 则可以减少 8 倍。这意味着一个原本需要 140GB 显存的 70B 参数模型，在 INT4 量化后可能只需要 35GB 左右。

然而，简单的截断量化会导致严重的精度损失，模型性能大幅下降。为了在压缩的同时保持质量，研究者们开发了多种先进的量化算法。LLM.int8() 是较早的方案，它在矩阵运算中分别处理异常值和常规值，对异常值保持 FP16 计算，常规值使用 INT8 计算。这种混合精度策略在大幅降低显存的同时，将精度损失控制在可接受范围内。GPTQ 则采用了更激进的方案，它通过逐层优化来找到最优的量化参数，能够在 3-bit 或 4-bit 量化下仍保持较好的模型效果。AWQ（Activation-aware Weight Quantization）进一步考虑了激活值的分布特性，通过分析哪些权重对模型输出更重要，来决定量化策略。

对于微调场景，QLoRA 是一种值得特别关注的技术。它将模型量化为 4-bit NF4 格式，同时保持 LoRA 模块使用更高精度（如 FP16）训练。这种设计使得在单张 24GB 显卡上微调 70B 参数模型成为可能。NF4 是一种专为正态分布设计的 4-bit 格式，它使用非均匀量化间隔，能够更好地保留权重的统计特性。配合双重量化（Double Quantization）技术，还能进一步压缩量化常数的存储，将显存占用再降低约 0.5 bits/参数。对于中文大模型的微调实践，这种技术组合已经被证明是非常有效的。

梯度检查点与梯度累积：以计算换空间

当显存不足以容纳所有模型参数和中间激活值时，梯度检查点（Gradient Checkpointing）技术提供了一种巧妙的解决方案。它的核心思想是：在前向传播时，不保存所有层的激活值，而是只保存部分检查点层的激活值；在反向传播需要中间激活值时，再从最近的检查点重新计算。这种"以时间换空间"的策略，使得显存占用从 O(n) 降低到 O(sqrt(n))，其中 n 是层数。

具体来说，假设模型有 80 层，使用梯度检查点后可能只需要保存 10 到 20 个检查点。剩余层在前向传播时计算的激活值会被释放掉，在反向传播需要时再临时计算。这带来的代价是反向传播时间大约会增加 20% 到 30%，因为部分计算需要重复进行。但对于显存受限的场景，这个 trade-off 往往是值得的——毕竟，显存不足意味着训练根本无法进行，而稍长的训练时间至少保证模型能够收敛。

与梯度检查点配合使用的是梯度累积技术。由于显存限制，我们可能无法使用较大的 batch size 进行训练。梯度累积的思路是：将一个大批次分割成多个小批次依次训练，将每个小批次的梯度累加起来，直到累加梯度达到目标批次大小时再更新模型参数。这种做法在数学上与直接使用大批次训练等价，但能够有效降低峰值显存占用。实践中，梯度检查点和梯度累积经常配合使用，前者解决激活值存储问题，后者解决批次大小限制问题，两者叠加可以让单卡训练的模型规模大幅提升。

优化器状态管理：减少冗余显存占用

优化器状态是显存占用的另一大户。以最常用的 AdamW 优化器为例，每个参数需要保存一阶动量（m）和二阶动量（v）两个状态，加上原始参数和梯度，理论上每个参数需要 4 个副本。对于 70B 参数的模型，仅优化器状态就需要约 280GB 显存，这就是为什么全参数微调对显存要求如此苛刻的原因。

8-bit 优化器如 bitsandbytes 提供的 8-bit AdamW，通过将优化器状态量化为 8 位整数，可以将优化器的显存占用降低约 75%。更重要的是，这种量化是自适应的——对于变化剧烈的梯度，8-bit 精度可能不足以准确记录，这时候优化器会自动切换回更高精度来保证数值稳定性。这种智能设计使得 8-bit 优化器在大多数场景下能够完全替代 32-bit 版本，而不会显著影响模型效果。

另一个重要的优化是使用分页优化器（Paged Optimizer）。传统的优化器状态管理是将所有状态一次性加载到 GPU 显存中，这对于大模型来说是不堪重负的。分页优化器利用 NVIDIA 的统一内存特性，将优化器状态分散存储在 CPU 和 GPU 之间，按需调度传输。虽然这会带来一定的通信开销，但能够将优化器的显存占用降到几乎可以忽略不计的程度。在 [LLaMA-Factory Online](https://www.llamafactory.com.cn/register?utm_source=jslt_csdn_ldd) 等平台上，Paged AdamW 是处理大模型时的推荐选择，它让在消费级显卡上微调超大模型变成了现实。

综合实践：单卡 4090 微调 70B 模型实战

说了这么多技术原理，让我们来看一个具体的实战案例：用单张 RTX 4090（24GB 显存）微调 70B 参数的模型。这个任务看起来几乎不可能完成，但通过组合上述技术，它完全可以实现。首先，我们需要使用 QLoRA 技术将模型量化为 4-bit NF4 格式。这需要选择 Double Quantization 选项来进一步压缩存储。量化后的模型权重大约占用 6 到 8GB 显存，远低于原始的 140GB。

接下来，配置 LoRA 进行参数高效微调。推荐使用较高的 r 值（如 32 或 64）来弥补量化带来的精度损失，因为 LoRA 模块本身使用 FP16 精度训练。在 target_modules 的选择上，建议扩展到所有注意力层和前馈网络层，以获得更强的适应能力。学习率可以设置为 2e-4，配合 5% 的 warmup 比例。启用梯度检查点技术，将激活值存储模式设置为 "all"，这样可以最大化节省显存。优化器选择 Paged AdamW，配合 8-bit 量化进一步降低状态占用。

在训练配置方面，由于显存限制，需要将 per_device_train_batch_size 设置为 1 或 2，并通过 gradient_accumulation_steps 累积到相当于 8 或 16 的批次大小。梯度裁剪（gradient clipping）建议设置为 1.0 以防止梯度爆炸。混合精度训练使用 bf16 或 fp16，根据显卡支持情况选择。通过以上配置，理论上可以在 24GB 显存上完成 70B 模型的微调，虽然训练速度会比 A100 慢上许多，但至少让个人开发者也能参与到大模型微调的行列中。

对于希望简化配置流程的开发者，推荐使用 LLaMA-Factory Online 平台。该平台集成了上述所有优化技术，并提供了预设的配置模板。用户在界面上选择模型、量化级别和微调方法后，平台会自动应用最优的显存优化策略。更方便的是，平台支持在云端租用显卡资源，如果本地硬件实在无法满足需求，可以无缝切换到云端进行训练，避免了硬件投资的顾虑。无论是本地实验还是云端训练，LLaMA-Factory Online 都能提供流畅的微调体验，让显存不再成为创作的瓶颈。