【RL】大模型训练DDP

这正是理解 Megatron-LM 框架的关键所在，因为它与**流水线并行（Pipeline Parallelism）**紧密相关。当一个模型非常巨大，大到单个 GPU 无法容纳时，就需要使用模型并行。流水线并行是模型并行的一种形式，它将模型的不同层（Layers）切分到不同的 GPU 上。

执笔论英雄

520人浏览 · 2025-12-25 17:48:40

执笔论英雄 · 2025-12-25 17:48:40 发布

好的，我们来详细拆解 model: Sequence[DDP] 这个类型注解，它在 Megatron-LM 这种大规模模型训练框架中非常关键。

首先，我们把它分解成两个部分：DDP 和 Sequence[...]。

1. `DDP` 是什么？

DDP 是 megatron.core.distributed.DistributedDataParallel 的缩写。它在功能上类似于 PyTorch 自带的 torch.nn.parallel.DistributedDataParallel，但为 Megatron 的复杂并行策略（特别是流水线并行）做了深度定制。

核心功能：数据并行 (Data Parallelism)

DDP 的主要作用是实现数据并行。在数据并行中：

每个 GPU（或说每个进程）都有一份完整的模型副本。
训练数据被切分成多个部分，每个 GPU 拿到一部分数据。
每个 GPU 独立地对自己的数据进行前向传播和反向传播，计算出梯度。
在反向传播过程中，所有 GPU 的梯度会进行 All-Reduce 操作，即把所有 GPU 的梯度加起来求平均。
最终，每个 GPU 上的模型副本都会用这个相同的、平均后的梯度来更新自己的权重。

这样做的结果是，虽然每个 GPU 只处理了一部分数据，但通过梯度同步，所有模型副本在每次更新后都保持完全一致。

所以，DDP 就是一个被“包装”过的模型，这个包装赋予了它在数据并行环境中进行梯度同步的能力。

2. `Sequence[DDP]` 是什么意思？

Sequence 是 Python collections.abc 里的一个抽象基类，它代表了任何支持索引访问的有序序列，比如列表 (list) 或元组 (tuple)。

所以 Sequence[DDP] 的意思是：一个包含了一个或多个 DDP 包装的模型对象的序列（通常是一个列表）。

为什么是一个序列，而不是单个模型？

这正是理解 Megatron-LM 框架的关键所在，因为它与**流水线并行（Pipeline Parallelism）**紧密相关。

当一个模型非常巨大，大到单个 GPU 无法容纳时，就需要使用模型并行。流水线并行是模型并行的一种形式，它将模型的不同层（Layers）切分到不同的 GPU 上。

GPU 0 可能只持有模型的第 1-8 层。
GPU 1 可能持有模型的第 9-16 层。
GPU 2 可能持有模型的第 17-24 层。
…以此类推。

在 Megatron 的术语里，被分配到同一个流水线阶段（pipeline stage）上的一组层，被称为一个 “模型块” (model chunk)。

现在把数据并行和流水线并行结合起来看：

假设我们有 8 个 GPU，我们想实现 2 路流水线并行和 4 路数据并行。

流水线划分:
- Stage 0: 模型的前半部分层。
- Stage 1: 模型的后半部分层。
数据并行划分:
- GPU 0, 1, 2, 3 属于 Stage 0。它们都持有模型前半部分的完整副本。它们之间构成一个数据并行组。
- GPU 4, 5, 6, 7 属于 Stage 1。它们都持有模型后半部分的完整副本。它们之间构成另一个数据并行组。

在这种情况下，对于任何一个 GPU 来说，它持有的不再是整个模型，而只是模型的一个“块”。这个“块”同样需要被 DDP 包装，以便在它所在的数据并行组内进行梯度同步。

所以，model: Sequence[DDP] 在 Megatron 中通常代表：

当前 GPU 进程所拥有的所有模型块（model chunks）的列表，其中每个模型块都被 DDP 包装器包裹。

举例说明

让我们通过一个具体的例子来理解 train 函数调用时的 model 参数。

假设我们有一个大型语言模型，并且在 Megatron 中配置了 虚拟流水线并行（Virtual Pipeline Parallelism）。虚拟流水线并行允许一个物理 GPU 模拟多个流水线阶段，这在平衡计算负载时非常有用。

假设我们的配置是：

2 个物理 GPU (Rank 0, Rank 1)。
4 个虚拟流水线阶段 (Virtual Stages)。
每个物理 GPU 负责 2 个虚拟阶段。

模型块的分配可能如下：

GPU 0 (Rank 0):
- 拥有虚拟阶段 0 的模型块 (例如，模型的 1-6 层)。
- 拥有虚拟阶段 2 的模型块 (例如，模型的 13-18 层)。
GPU 1 (Rank 1):
- 拥有虚拟阶段 1 的模型块 (例如，模型的 7-12 层)。
- 拥有虚拟阶段 3 的模型块 (例如，模型的 19-24 层)。

在这种情况下：

当在 GPU 0 上调用 train(...) 函数时，传入的 model 参数会是这样的一个列表：

# 在 GPU 0 进程中
model = [
    DDP(model_chunk_stage_0),  # 第一个元素是 Stage 0 的模型块，被 DDP 包装
    DDP(model_chunk_stage_2)   # 第二个元素是 Stage 2 的模型块，被 DDP 包装
]

# 调用 train 函数
train(
    rollout_id=0,
    model=model,  # 传入这个包含两个 DDP 包装块的列表
    optimizer=optimizer,
    ...
)

train 函数内部会做什么？

它会遍历这个 model 列表：

def train(...):
    # ...
    # Turn on training mode which enables dropout.
    for model_module in model:  # 遍历列表中的每个 DDP 模型块
        model_module.train()    # 对 model_chunk_stage_0 和 model_chunk_stage_2 分别调用 .train()

    # ...
    # Megatron 的流水线引擎 get_forward_backward_func 会接收这个 model 列表
    # 它知道如何按顺序执行这些模型块（先执行 stage 0，然后等待数据，再执行 stage 2）
    forward_backward_func(
        ...
        model=model,
        ...
    )
    # ...

总结一下：

DDP: 为模型（或模型块）添加数据并行的梯度同步功能。
Sequence[...] (列表): 因为流水线并行的存在，一个 GPU 可能持有多个不连续的模型块，所以用一个列表来存放这些块。

因此，model: Sequence[DDP] 是一个非常精确的类型注解，它完美地描述了在复杂的混合并行（数据并行 + 流水线并行）环境下，一个 GPU 进程实际持有的模型状态——即一个由多个被 DDP 包装的模型块组成的列表。在最简单的情况下（没有流水线并行），这个列表里就只会有一个元素。

模型块的分配可能如下：

GPU 0 (Rank 0):

拥有虚拟阶段 0 的模型块 (例如，模型的 1-6 层)。
拥有虚拟阶段 2 的模型块 (例如，模型的 13-18 层)。
GPU 1 (Rank 1):

拥有虚拟阶段 1 的模型块 (例如，模型的 7-12 层)。
拥有虚拟阶段 3 的模型块 (例如，模型的 19-24 层)。为什么是这样分配的，get_forward_backward_func 会接收这个 model 列表
# 它知道如何按顺序执行这些模型块（先执行 stage 0，然后等待数据，再执行 stage 2 详细展开描述get_forward_backward_func？

好的，我们来详细深入地探讨这两个问题：

为什么流水线阶段会这样“交错”分配？
get_forward_backward_func 返回的函数是如何处理这个模型块列表的？

问题一：为什么流水线阶段是“交错”分配的？

这种 GPU0 -> Stage 0, 2，GPU1 -> Stage 1, 3 的交错分配方式被称为 “交错流水线调度”（Interleaved Pipeline Schedule）。这是为了解决传统流水线并行中的一个巨大痛点：“流水线气泡”（Pipeline Bubble）。

1. 传统流水线（GPipe）的问题：流水线气泡

我们先看看非交错的简单流水线是什么样的。假设有 4 个阶段，4 个 GPU，每个 GPU 负责一个阶段。

GPU 0: Stage 0
GPU 1: Stage 1
GPU 2: Stage 2
GPU 3: Stage 3

当处理一批微批次（micro-batches）时，计算过程如下（F_i_j 表示对第 j 个微批次执行第 i 个阶段的前向传播）：

时间步	GPU 0 (S0)	GPU 1 (S1)	GPU 2 (S2)	GPU 3 (S3)
1	F_0_1	空闲	空闲	空闲
2	F_0_2	F_1_1	空闲	空闲
3	F_0_3	F_1_2	F_2_1	空闲
4	F_0_4	F_1_3	F_2_2	F_3_1
5	空闲	F_1_4	F_2_3	F_3_2
6	空闲	空闲	F_2_4	F_3_3
7	空闲	空闲	空闲	F_3_4

上图中的空闲部分，就是流水线气泡。在流水线的启动（warm-up）和排空（drain）阶段，大量的 GPU 处于空闲等待状态，这极大地降低了硬件的利用率。反向传播时也会有类似的气泡。

2. 交错流水线调度的解决方案

现在，我们来看您例子中的交错分配：

GPU 0: Stage 0, Stage 2
GPU 1: Stage 1, Stage 3

Megatron-LM 将这个配置称为 虚拟流水线并行（Virtual Pipeline Parallelism）。每个物理 GPU 模拟了多个“虚拟”的流水线阶段。

让我们看看计算流程变成了什么样（假设一个模型块的计算时间为 T）：

时间步	GPU 0 (持有 S0, S2)	GPU 1 (持有 S1, S3)
T	F_0_1 (计算 Stage 0, 微批次 1)	空闲
2T	F_0_2 (计算 Stage 0, 微批次 2)	F_1_1 (接收 GPU0 数据, 计算 S1, mb 1)
3T	F_2_1 (接收 GPU1 数据, 计算 S2, mb 1)	F_1_2 (接收 GPU0 数据, 计算 S1, mb 2)
4T	F_2_2 (接收 GPU1 数据, 计算 S2, mb 2)	F_3_1 (接收 GPU0 数据, 计算 S3, mb 1)
…	…	…

关键点在这里：

在时间步 3T，当 GPU 1 正在忙于计算 F_1_2 时，GPU 0 并没有空闲！它接收到 GPU 1 完成 F_1_1 后的数据，开始计算 F_2_1。

通过将一个物理 GPU 上的任务（模型块）打散，当它等待下游 GPU 的数据来进行反向传播，或者等待上游 GPU 的数据来进行后续阶段的前向传播时，它可以利用这些“空闲”时间片去执行另一个模型块的计算。

交错分配的优势：

显著减少气泡大小：GPU 的空闲时间被大大压缩。
提高硬件利用率：GPU 始终有活可干，整体训练吞吐量得到提升。
更灵活的负载均衡：如果模型的不同部分计算量不均，可以通过调整虚拟阶段的划分和分配来更好地平衡每个物理 GPU 的负载。

这就是为什么 Megatron-LM 等框架采用这种看起来很“奇怪”的交错分配方式。这是一种以增加调度复杂性为代价，换取更高训练效率的先进技术。

问题二：`get_forward_backward_func` 返回的函数如何工作？

get_forward_backward_func 是一个工厂函数，它根据当前的并行配置返回一个高度优化的、负责执行一个完整训练步骤（1F1B，one-forward-one-backward）的函数。我们暂且称这个返回的函数为 forward_backward_step。

这个 forward_backward_step 函数是 Megatron 训练循环的心脏。它接收的参数包括我们讨论的 model: Sequence[DDP] 列表，以及数据迭代器、微批次数量等。

forward_backward_step 的内部工作流程（高度简化和概念化）：

这个函数本质上是一个复杂的事件调度器，它管理着计算、通信和依赖关系。它知道每个 GPU 上有哪些模型块，以及它们之间的依赖关系。

我们还是用您的例子：

model 列表在 GPU 0 上是 [ddp_for_stage0, ddp_for_stage2]
model 列表在 GPU 1 上是 [ddp_for_stage1, ddp_for_stage3]

forward_backward_step 的执行可以分解为以下阶段：

阶段一：前向传播（The Forward Pass “Warm-up”）

forward_backward_step 会在一个循环中处理所有微批次。

调度 Stage 0：
- forward_backward_step 知道 GPU 0 持有 Stage 0，这是流水线的起点。
- 它调用 forward_step 函数（这是 train_one_step 传递给它的）获取第一个微批次的数据。
- 它执行 ddp_for_stage0(data)，即在 GPU 0 上对第一个微批次进行 Stage 0 的前向计算。
- 计算完成后，它会调度一个非阻塞的 P2P (Point-to-Point) 发送操作，将 Stage 0 的输出激活值发送给持有 Stage 1 的 GPU（即 GPU 1）。
调度 Stage 1：
- 在 GPU 1 上，forward_backward_step 调度一个非阻塞的 P2P 接收操作，等待来自 GPU 0 的数据。
- 一旦数据到达，它就执行 ddp_for_stage1(received_data)，进行 Stage 1 的计算。
- 计算完成后，它同样调度一个 P2P 发送，将结果发给持有 Stage 2 的 GPU（即 GPU 0）。
交错执行 Stage 0 和 Stage 2：
- 在 GPU 0 上，当它完成了第一个微批次的 F_0_1 并发送出去后，它不会空闲。forward_backward_step 会立即调度它处理第二个微批次的 F_0_2。
- 与此同时，它也在等待来自 GPU 1 的 F_1_1 的结果。
- 当 F_1_1 的结果到达时，如果 GPU 0 恰好完成了 F_0_2 的计算，调度器就会让它开始计算 F_2_1 (即执行 ddp_for_stage2(data_from_gpu1))。

这个过程就像一个精心编排的舞蹈，调度器不断地检查哪些计算的依赖（数据）已经满足，然后立刻将任务分配给空闲的计算单元。

阶段二：1F1B 稳态（The Steady State）

当流水线“热”起来之后，每个 GPU 都在同时进行前向和反向传播的计算。

GPU 0 可能正在：
- 对微批次 k 进行 Stage 0 的前向计算。
- 对微批次 k-2 进行 Stage 2 的前向计算。
- 对微批次 k-4 进行 Stage 2 的反向计算。
- 对微批次 k-6 进行 Stage 0 的反向计算。
- 同时，DDP 包装器内部的钩子也在被触发，当某个梯度桶计算完毕，就会启动该桶的梯度 All-Reduce。

forward_backward_step 调度器负责管理所有这些并发任务，确保它们的执行顺序正确，并最大化计算和通信的重叠。

阶段三：反向传播（The Backward Pass “Drain”）

当前向传播的所有微批次都通过了最后一个阶段后，流水线开始排空。调度器只调度反向传播任务，直到所有微批次的梯度都计算完毕并同步完成。

总结 forward_backward_step 的智能之处：

感知拓扑结构：它知道完整的流水线拓扑，包括哪个 GPU 持有哪些模型块，以及它们之间的通信关系。
管理依赖：它维护一个依赖图，知道执行某个计算（如 F_2_1）需要等待哪个通信（F_1_1 的结果）完成。
异步调度：它大量使用异步操作（如 torch.distributed.isend, irecv）和 CUDA Streams，使得计算和通信可以并行进行。
与 DDP 集成：它与我们分析的 DDP 类紧密合作。当它执行一个模型块的反向传播时，DDP 内部的钩子会自动被触发，从而调度梯度的 All-Reduce 通信。调度器本身可能不需要显式地关心梯度同步的细节，这部分被封装在 DDP 内部了。
处理模型块列表：它按顺序查看 model 列表中的模型块，将它们视为分配给当前 GPU 的一系列任务。它根据流水线调度逻辑（如 1F1B）来决定在何时执行列表中的哪个模型块。

因此，get_forward_backward_func 返回的不仅仅是一个简单的函数，而是一个高度复杂的、专为大规模分布式训练设计的任务调度和执行引擎。它使得开发者可以从繁琐的底层通信和同步管理中解脱出来，只需定义好 forward_step 和 loss_function 即可。

好的，让我们用一个更直观的比喻和详细的步骤来解释**“流水线开始排空（drain）”**这个概念。

比喻：汽车装配流水线

想象一条汽车装配流水线，有 4 个工位（Stage 0 到 Stage 3），分别负责安装底盘、发动机、车身和内饰。

微批次（Micro-batch）：一辆待组装的汽车。
前向传播（Forward Pass）：汽车从头到尾经过所有工位，完成组装。
反向传播（Backward Pass）：假设在检查时发现问题，需要从后向前依次拆卸检查（这只是个比喻，为了对应反向传播的顺序）。

1. 流水线启动（Warm-up）

时间点 1: 第 1 辆车进入工位 0（安装底盘）。工位 1, 2, 3 都闲着。
时间点 2: 第 1 辆车移动到工位 1（装发动机），同时第 2 辆车进入工位 0。工位 2, 3 仍然闲着。
时间点 3: 第 1 辆车到工位 2，第 2 辆到工位 1，第 3 辆到工位 0。工位 3 闲着。
时间点 4: 第 1 辆车到工位 3，第 2 辆到工位 2，… ，第 4 辆到工位 0。此时，所有工位都忙起来了。

这个从“部分工位空闲”到“所有工位都忙碌”的过程，就是流水线启动（warm-up）。

2. 流水线稳态（Steady State）

从时间点 4 开始，流水线进入了最高效的状态。每过一个时间单位，就有一辆新车进入，一辆组装好的车离开。每个工位都在不停地工作。在深度学习中，这个阶段每个 GPU 都在同时进行前向和反向计算（1F1B 调度）。

3. 流水线排空（Drain）

现在，假设我们总共只有 4 辆车要组装（即总共有 4 个微批次）。

时间点 4: 第 4 辆车刚刚进入工位 0。此时，第 1 辆车已经在工位 3（最后一个阶段）完成了它的前向传播（组装完成）。
关键点: 当最后一辆车（第 4 辆）也进入流水线后，工位 0 就没有新的车可以接收了。 这就是“当前向传播的所有微批次都通过了第一个阶段”的时刻（更准确地说，是最后一个微批次完成了第一个阶段的前向传播）。

接下来会发生什么？

时间点 5:
- 工位 0 变为空闲，因为它没有新的车（微批次）可以处理了。
- 第 4 辆车移动到工位 1。
- 第 3 辆车移动到工位 2。
- 第 2 辆车移动到工位 3，完成了它的前向传播。
时间点 6:
- 工位 0 和 1 都变为空闲。
- 第 4 辆车移动到工位 2。
- 第 3 辆车移动到工位 3，完成了它的前向传播。
时间点 7:
- 工位 0, 1, 2 都变为空闲。
- 第 4 辆车移动到工位 3，完成了它的前向传播。

这个从“所有工位都忙碌”逐渐变回“部分工位空闲”直到“所有工位都空闲”的过程，就叫做流水线排空（drain）。

在深度学习训练中的实际含义

在 Megatron 的 1F1B（one-forward-one-backward）调度中，“排空”阶段的含义更加具体：

“当前向传播的所有微批次都通过了最后一个阶段后” 这句话的确切含义是：最后一个微批次（the last micro-batch）已经完成了它在最后一个流水线阶段（the last pipeline stage）的前向传播计算。

一旦这个事件发生，就意味着：

没有新的前向传播任务了：整个流水线中不会再有任何新的前向计算需要被调度。
只剩下反向传播任务：所有已经完成前向传播的微批次，都需要依次进行反向传播。

排空阶段的具体操作：

调度器（forward_backward_step 函数）会停止调度任何 forward_step。
它会专注于调度剩余的反向传播计算。
例如：当最后一个微批次 mb_N 在最后一个 Stage S_M 完成了前向计算后，会立刻开始 mb_N 在 S_M 上的反向计算。
计算完梯度后，它会把梯度传给上一个阶段 S_{M-1}。
S_{M-1} 接收到梯度后，会为 mb_N 进行反向计算，然后把梯度传给 S_{M-2}…
这个过程就像多米诺骨牌一样，从后向前，依次完成所有微批次在所有阶段上的反向传播。
与此同时，之前已经完成前向传播的微批次（如 mb_{N-1}, mb_{N-2}…）的反向传播过程也正在进行中。

排空阶段的“气泡”

和启动阶段一样，排空阶段也会产生“气泡”，即 GPU 的空闲时间。

当最后一个微批次的反向传播任务离开一个阶段后，那个阶段就彻底没事干了，进入空闲状态。
例如，当 mb_N 的反向传播从 S_M 传到 S_{M-1} 后，S_M 所在的 GPU 如果没有其他任务（比如在交错流水线中），就会空闲下来。
这个空闲时间会从后向前逐渐蔓延，直到第一个阶段 S_0 也完成了最后一个微批次的反向传播，整个训练步骤（iteration）才算完全结束。

总结一下：

“流水线开始排空” 是一个信号，标志着一个训练迭代（iteration）从高效的“稳态”进入了收尾阶段。在这个阶段，系统不再处理新的前向任务，而是集中精力完成所有待处理的反向传播任务，直到所有微批次的梯度都计算并同步完毕。这个阶段和启动阶段一样，是导致流水线并行产生效率损失（即“气泡”）的主要来源。

是的，你问到了一个非常核心且前沿的问题！流水线启动（warm-up）和排空（drain）阶段产生的“气泡”是流水线并行效率的主要瓶颈。学术界和工业界已经提出了多种方法来解决或缓解这个问题。

这些方法的核心思想都是一样的：想办法把“气泡”时间利用起来，让 GPU 在等待的时候有其他事情可做。

主要的解决方案

1. 交错流水线调度 (Interleaved Pipeline Schedule) - 已在讨论

这是我们之前详细讨论过的方法，也是 Megatron-LM 等框架广泛采用的主流方案。

核心思想：将一个物理 GPU 分配给多个不连续的流水线阶段（虚拟阶段），例如 GPU 0 负责 Stage 0 和 Stage 2。
如何解决气泡：当 GPU 0 在等待 Stage 1 的数据来执行 Stage 2 的计算时（这会产生气泡），它可以利用这段时间去处理另一个微批次的 Stage 0 的计算。它用一个模型块的计算“填充”了另一个模型块等待所产生的气泡。
优点：实现相对直接，效果显著，能大幅减少气泡。
缺点：并不能完全消除气泡，只是将其减小。在流水线的最初启动和最终排空阶段，仍然会有不可避免的空闲。此外，它增加了内存占用，因为一个 GPU 需要同时存储多个模型块的权重和激活值。

(上图：GPipe 的气泡。下图：PipeDream/Megatron 的交错调度减少了气泡)

2. PipeDream-2BW: 带权重更新的双缓冲（Dual Buffering of Weights）

这是对交错流水线的一个非常聪明的改进，几乎可以理论上完全消除流水线气泡。

核心思想：既然一个训练迭代（iteration）的结束和下一个迭代的开始之间存在气泡，那我们为什么不让两个迭代重叠起来呢？
工作原理：
1. 双权重缓冲区 (Dual Weight Buffers)：每个 GPU 维护两份模型块的权重：W_i (用于第 i 个迭代) 和 W_{i+1} (用于第 i+1 个迭代)。
2. 前向传播使用新权重：当 GPU 为第 i+1 个迭代的微批次做前向传播时，它使用 W_{i+1} 的权重。
3. 反向传播使用旧权重：当 GPU 为第 i 个迭代的微批次做反向传播时，它使用 W_i 的权重来计算梯度。这保证了梯度计算的一致性（前向和反向使用相同的权重）。
4. 异步权重更新：计算出的梯度会异步地更新 W_i，得到新的 W_{i+1}。
5. 重叠迭代: 在第 i 个迭代的“排空”阶段，GPU 会开始执行第 i+1 个迭代的“启动”阶段的前向传播。
如何解决气泡：第 i 次迭代排空阶段产生的气泡，被第 i+1 次迭代启动阶段的计算任务完美地填充了。这样，流水线永远处于“稳态”，几乎没有空闲时间。
优点：
- 极高的硬件利用率，接近 100%。
缺点：
- 内存开销巨大：需要存储两份模型权重、两份优化器状态，以及可能两份激活值。
- 权重版本滞后 (Weight Stale-ness)：反向传播使用的是上一个版本的权重，这引入了轻微的梯度滞后。虽然在实践中影响不大，但理论上改变了 SGD 的动态。
- 实现复杂：需要非常复杂的内存管理和同步机制。

3. Z-Code (以及类似思想): 在气泡中进行其他计算

这是一种更通用的思想，不局限于特定的调度策略。

核心思想：如果流水线并行产生了气泡，我们可以在这些气泡时间里插入一些完全不相关但有用的计算任务。
可能的填充任务:
1. 数据预处理: 在 GPU 上进行下一批次数据的加载和预处理。
2. 异步优化器步骤: 如果使用某些特定的优化器（如 LARS），其部分计算可以独立于梯度计算进行，可以安排在气泡中。
3. 评估或指标计算: 运行一小部分验证集来监控模型性能。
4. 与其他并行策略结合: 在序列并行（Sequence Parallelism）中，一些 All-Reduce 操作可能可以被安排在气泡时间里。
优点：
- 灵活性高，可以根据具体任务定制填充内容。
缺点：
- 需要找到合适的、可以“塞进”气泡的并行任务。
- 调度逻辑非常复杂，需要精确地知道气泡在何时何地出现，以及持续多长时间。

总结对比

方法	核心思想	优点	缺点
交错流水线调度	用一个模型块的计算填充另一个模型块的等待时间	效果好，实现相对成熟，是目前主流方案	无法完全消除气泡，增加内存
PipeDream-2BW	用下一个迭代的启动阶段填充上一个迭代的排空阶段	理论上可完全消除气泡，硬件利用率最高	内存开销巨大，实现复杂，有梯度滞后
Z-Code	在气泡中插入不相关的有用计算	灵活，可定制	依赖于找到合适的填充任务，调度复杂

现状如何？

交错流水线调度 是目前最成熟、最广泛使用的技术。Megatron-LM、DeepSpeed、Nemo 等主流框架都基于这个思想。
PipeDream-2BW 的思想非常强大，但由于其巨大的内存开D销和复杂性，在超大规模模型（如 GPT-3 级别）上直接应用很有挑战。不过，它的思想启发了很多后续研究，可能会以某种变体形式出现。
Z-Code 的思想在特定的系统优化中被采用，但作为一种通用解决方案，其复杂性较高。

总而言之，解决流水线气泡是一个典型的用**“空间换时间”或“复杂性换效率”**的例子。目前没有完美的“银弹”，需要在硬件利用率、内存占用和实现复杂性之间做出权衡。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【必学收藏】法律与金融场景下的AI上下文工程：混合策略全解析与实战指南

2048 AI社区

从零开始掌握RAG技术：破解大模型局限的终极指南

2048 AI社区

从零到一，基于昇腾平台的多模态视频生成实战之旅

这个过程重复成千上万次，模型就学会了"什么样的噪声对应什么样的图像"。中间层是加速算法，包括高性能算子(RoPE、RMSNorm、FlashAttention)、并行策略(Ulysses、Ring、CFG)、近似算法(DiTCache、序列压缩)和量化技术(W8A8、FA量化)。扩散模型的火爆让AI视频生成成为了当下最热门的技术方向之一。但当我第一次尝试在昇腾NPU上部署Wan2.1视频生成模型时