NV-FP4：以4位的速度与效率，实现16位的训练精度

摘要： NVIDIA推出创新4位浮点格式NV-FP4，通过算法与硬件协同设计，在保持16位训练精度的同时显著提升效率。NV-FP4采用“3-1-0”非对称结构，结合两阶段量化策略和硬件加速逆量化，有效减少内存占用并优化计算性能。实验显示，在Llama等大型语言模型训练中，NV-FP4精度与BF16相当，性能较FP8提升1.7倍。该技术已深度集成至NVIDIA Transformer Engine，

扫地的小何尚

735人浏览 · 2025-09-22 13:20:13

扫地的小何尚 · 2025-09-22 13:20:13 发布

NV-FP4：以4位的速度与效率，实现16位的训练精度

随着大型语言模型（LLM）的规模以前所未有的速度增长，AI训练的计算需求也在急剧增加。为了应对这一挑战，研究人员一直在探索使用更低精度的数值格式进行训练，以减少内存占用和计算开销。然而，在追求效率的同时保持模型精度，尤其是在4位（4-bit）这样极低的精度下，一直是一个巨大的挑战。

今天，NVIDIA的研究为这一领域带来了突破性进展。我们提出了一种名为NV-FP4的创新4位浮点数格式，它在训练中能够达到与16位（FP16/BF16）相当的精度，同时提供了4位数据格式所带来的速度和效率优势。

本文将深入探讨NV-FP4格式的设计理念、技术实现及其在LLM训练中的卓越表现。我们将保留并详细解读原始NVIDIA博客中的所有技术细节、图表和数据，并在此基础上提供更深层次的NVIDIA技术栈整合分析，帮助开发者和工程师全面理解并应用这项前沿技术。

低精度训练的挑战与机遇

在深入了解NV-FP4之前，我们首先需要理解为什么低精度训练如此重要，以及它面临的核心挑战。

AI模型的训练过程主要受限于计算资源和内存带宽。使用低精度格式（如8位或4位）有两大核心优势：

减少内存占用：更低的数据位宽意味着模型权重、激活值和梯度占用的内存更少。这使得在单个GPU上训练更大规模的模型成为可能。
提升计算速度：现代GPU（如NVIDIA Hopper和Blackwell架构）中的Tensor Core专门为低精度计算进行了优化。在处理FP8或INT4等格式时，其吞吐量远超FP16或FP32。

然而，机遇与挑战并存。当精度从16位降低到8位，尤其是4位时，数值的表示范围和精度都会大幅缩水，这会导致量化误差（Quantization Error）。量化误差会在训练过程中累积，最终可能导致模型无法收敛或性能严重下降。

传统的4位格式，如常规浮点数（Normal Float, NF4）和整数（INT4），在训练中都表现不佳。它们要么表示范围太小，无法覆盖激活值和梯度的动态范围；要么精度不足，无法保留模型收敛所需的细微信息。

正是在这样的背景下，NV-FP4应运而生。它的核心目标是：设计一种专为AI训练优化的4位格式，既能享受4位计算的效率，又能避免传统4位格式的精度损失。

NV-FP4：一种专为训练设计的4位浮点格式

NV-FP4是一种非对称的、有偏置的4位浮点格式。与传统的浮点格式不同，它在设计上充分考虑了AI训练中梯度和激活值的分布特性。

NV-FP4的设计包含以下关键特性：

指数位（Exponent Bits）：NV-FP4使用3个指数位。
尾数位（Mantissa Bits）：使用1个尾数位。
偏置（Bias）：引入了一个共享的偏置项，使其能够更好地拟合非对称的数值分布。
专用零值（Dedicated Zero）：拥有一个专用的编码来表示零。

这种“3-1-0” (3 exponent, 1 mantissa, 0 sign bit) 的结构，加上偏置，使其能够非对称地表示数值。从上图可以看出，与NF4等对称格式相比，NV-FP4在零点附近拥有更高的表示密度，这对于精确表示梯度和激活值至关重要，因为这些值大多数都集中在零附近。

算法与硬件的协同设计

为了在训练中有效利用NV-FP4，NVIDIA采用了算法和硬件协同设计（Co-design）的策略。这套系统包含两个核心部分：

两阶段量化策略（Two-Phase Quantization）
硬件加速的逆量化（Hardware-Accelerated Dequantization）

两阶段量化策略

为了最大限度地减少量化误差，我们设计了一种两阶段量化方法，该方法在将FP16/BF16张量转换为NV-FP4时执行。

第一阶段：粗量化（Coarse Quantization）

首先，将FP16/BF16张量进行块量化（Block Quantization）。我们将原始张量划分为大小为128的块。
对于每个块，计算出一个共享的缩放因子（Scale）和偏置（Offset）。
这个过程将FP16/BF16张量转换为一种中间格式——**块浮点（Block Floating-Point）**表示。这一步的目的是处理数值的动态范围，并将大部分数值映射到一个更易于处理的区间。

第二阶段：细量化（Fine-Grained Quantization）

在粗量化之后，我们得到一个分布更均匀的张量。
接着，使用**码本量化（Codebook Quantization）**将块浮点张量转换为最终的NV-FP4格式。我们为NV-FP4预先计算了一个包含15个值的优化码本。
在量化时，为块中的每个值寻找码本中最接近的条目。

这种两阶段方法能够系统性地减少由极低位宽（4位）引起的量化误差，为保持训练精度奠定了基础。

硬件加速的逆量化

虽然量化过程对于精度至关重要，但在实际训练中，GPU执行的操作是逆量化（Dequantization）。在前向和后向传播过程中，权重和激活值需要从压缩的NV-FP4格式转换回BF16格式，以便Tensor Core进行计算。

为了使这个过程尽可能高效，NVIDIA Hopper和Blackwell架构的Tensor Core内置了对NV-FP4逆量化的原生硬件支持。

这个硬件单元能够高效地执行以下操作：

从内存中加载NV-FP4格式的权重或激活值。
同时加载对应的缩放因子和偏置。
在Tensor Core内部，通过硬件逻辑将NV-FP4值、缩放因子和偏置组合，实时地将其逆量化为BF16值。
将得到的BF16值送入Tensor Core进行矩阵乘法运算。

整个逆量化过程在硬件中“即时”完成，不会带来任何额外的性能开销。这意味着开发者可以享受到4位格式带来的3-4倍内存带宽提升和存储节省，而无需牺牲计算性能。

与NVIDIA Transformer Engine的无缝集成

NV-FP4的强大之处不仅在于其格式设计和硬件支持，更在于它与NVIDIA软件生态的深度集成。NVIDIA Transformer Engine (TE) 是实现这一切的关键。

Transformer Engine是一个开源库，它能够自动地在训练过程中应用混合精度技术，以加速Transformer模型的训练。TE最初为FP8混合精度训练而设计，现在已扩展支持NV-FP4。

当使用TE进行训练时，开发者无需手动管理数值格式的转换。TE会自动处理权重和激活值的量化与逆量化过程。

以下是使用Transformer Engine和PyTorch启用NV-FP4训练的示例代码：

# 导入Transformer Engine
import transformer_engine.pytorch as te
from transformer_engine.common.recipe import Format, DelayedScaling

# 创建FP4配置对象
# enabled: 启用FP4
# format: 指定使用NV-FP4格式
# amax_history_len: AMAX历史记录长度，用于计算量化缩放因子
# amax_compute_algo: AMAX计算算法
fp4_format = Format.NV_FP4
fp4_recipe = DelayedScaling(
    fp4_format=fp4_format,
    amax_history_len=16,
    amax_compute_algo="max"
)

# 使用te.fp4_autocast上下文管理器启用FP4
# 在这个上下文中的所有TE模块（如te.Linear）将自动使用NV-FP4
with te.fp4_autocast(enabled=True, fp4_recipe=fp4_recipe):
    # 定义你的模型层，这里使用Transformer Engine提供的te.Linear
    # TE会自动处理权重的NV-FP4量化
    linear = te.Linear(in_features, out_features, bias=True)
    
    # 在前向传播中，输入张量(input_tensor)会被动态量化为NV-FP4
    # 硬件会即时将NV-FP4权重和输入逆量化为BF16进行计算
    output = linear(input_tensor)

从代码中可以看出，启用NV-FP4非常简单：

定义一个DelayedScaling配方（recipe），指定使用Format.NV_FP4。
将模型的前向传播代码包裹在te.fp4_autocast上下文管理器中。

Transformer Engine会在后台自动完成所有繁重的工作，包括：

将模型权重从FP32或BF16量化为NV-FP4格式。
在前向和后向传播中，动态地将激活值量化为NV-FP4。
管理和更新量化所需的缩放因子（AMAX值）。
调用支持NV-FP4的底层CUDA核心和Tensor Core硬件。

这种软件和硬件的紧密结合，使得开发者能够以最小的代码改动，享受到NV-FP4带来的巨大性能提升。

实验结果：精度与性能的双重胜利

为了验证NV-FP4的有效性，NVIDIA在多种规模的LLM上进行了广泛的训练实验，包括Llama 2 7B、Llama 3 8B和GPT 43B等模型。

精度验证

实验结果表明，使用NV-FP4训练的模型，其最终精度与使用BF16或FP16训练的模型相当。

下表展示了在多个下游任务（如常识推理和问答）上，NV-FP4与BF16的精度对比。

模型	任务	BF16 精度	NV-FP4 精度
Llama 2 7B	PIQA	78.8	78.8
Llama 2 7B	ARC-e	76.2	76.3
Llama 2 7B	ARC-c	48.5	48.4
Llama 2 7B	BoolQ	78.4	78.4
Llama 3 8B	PIQA	81.1	81.1
Llama 3 8B	ARC-e	80.0	80.0
Llama 3 8B	ARC-c	54.4	54.4
Llama 3 8B	BoolQ	83.9	83.9