打破 Agent 推理“存储墙”：清北与DeepSeek 联手发布大模型新推理架构

这篇由清华大学、北京大学与 DeepSeek（深度求索）联合发表的论文，并没有直接谈模型参数，而是切中了当前大模型落地的“七寸”：智能体（Agent）推理的存储带宽瓶颈。简单来说，当 LLM 变成 Agent，推理的逻辑变了，硬件的压力点也变了，这就需要有新的推理架构来应对新的挑战。DualPath 就是为了解决这些挑战而生的。

中科创新烁智

603人浏览 · 2026-03-02 17:11:32

中科创新烁智 · 2026-03-02 17:11:32 发布

打破 Agent 推理“存储墙”：清北与DeepSeek 联手发布大模型新推理架构

论文：DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

在二月份，DeepSeek又偷偷在arxiv上投放了一篇硬核论文，引起了大家对DeepSeek-V4的猜测与讨论。

这篇由清华大学、北京大学与 DeepSeek（深度求索）联合发表的论文，并没有直接谈模型参数，而是切中了当前大模型落地的“七寸”：智能体（Agent）推理的存储带宽瓶颈。简单来说，当 LLM 变成 Agent，推理的逻辑变了，硬件的压力点也变了，这就需要有新的推理架构来应对新的挑战。DualPath 就是为了解决这些挑战而生的。

一、问题背景：Agent 带来的“存储墙”

在传统的聊天机器人场景中，你问一句，它答一句，上下文相对固定。但在智能体（Agentic）范式下，LLM 需要频繁地与环境交互（比如查浏览器、运行 Python 代码），一干就是几十甚至上百轮。

这种模式带来了两个显著变化：

极高的 KV-Cache 命中率：因为每一轮只增加一点点新指令，95% 以上的上下文都是重复的。
I/O 变重，计算变轻：GPU 不再忙着算数，而是在忙着从硬盘里“捞”之前存好的 KV-Cache。

而这也揭露出现在推理系统的痛点：在现在的架构里，预填充引擎（PE）忙着从硬盘搬数据，存储网卡累到冒烟；而解码引擎（DE）的网卡却在旁边闲着，形成了巨大的资源浪费。

GPU 算力增长极快，但网络和显存带宽的增长却像蜗牛爬，这种“剪刀差”让 Agent 推理越来越卡。这种负载不平衡严重限制了整个系统的吞吐量。

二、架构创新：双路径加载与带宽池化

既然 PE 搬不动了，DE 又没活干，DualPath 的思路就是：让 DE 帮着 PE 一起搬数据。

DualPath 的核心创新在于打破了“存储 → PE”的单一数据路径，引入了“存储到解码（Storage-to-Decode）”的新路径。并且在工程上将整个集群中原本被“孤立”在各节点的存储网卡整合进了一个全局虚拟资源池。通过动态分配负载，系统可以同时动用 PE 和 DE 的带宽来加载同一个请求的记忆，彻底打破了单节点 I/O 的上限。

数据流深度解析

PE 读取路径：KV-Cache 从存储读入 PE 缓冲区，用于处理当前 layer 的 cache-miss 部分，随后将该层完整的 KV-Cache 传给 DE 进行持久化或后续使用。
DE 读取路径：KV-Cache 先被加载到 DE 缓冲区，再通过计算网络（RDMA）在 prefill 期间按需传回 PE，实现数据与计算的重叠。
按层流式处理：为了应对 HBM 容量限制，DualPath 采用层级（Layerwise）加载范式，GPU 仅需持有单层 KV-Cache 即可开始计算，极大地提升了显存利用率和 batch size 。

对比左侧（传统单路径，PE 红灯满载）和右侧（DualPath，双路绿灯并进，利用率翻倍）。

三、工程落地：以 CNIC 为中心的流量管理

这是全篇最具“深度”的工程细节。直接在节点间搬运海量 KV-Cache 极易干扰模型推理的集体通信（Collective Primitives），如专家并行中的 AllToAll 。

1. 流量隔离与 QoS 策略

DualPath 放弃了无法控制服务质量（QoS）的 GPUDirect Storage 方案，转而采用以计算网卡（CNIC）为中心的数据搬运方式：

虚拟车道（Virtual Lanes, VL）：在 InfiniBand 或 ROCe 网络中，将推理通信分配至高优先级VL，并将KV-Cache传输分配至低优先级VL。
带宽配额：通过 VL 仲裁器为高优先级流量预留 99% 的带宽，确保KV-Cache传输仅能利用“间隙”流量，从而实现对首字延迟(TTFT)的零干扰。

2. 避免 PCIe 竞争

现有的 GPU 缺乏 PCIe 级别的 QoS 控制。DualPath 通过 RDMA Write 直接操作 GPU 显存，建立了一个受控的本地主机到设备（H2D）数据通道，解决了搬运数据与模型执行之间的 PCIe 争抢问题。

3. 双层调度算法

为了防止在“借路”过程中重新产生新的瓶颈，DualPath 实现了一个双层调度器：

层间调度（Inter-Engine）：利用Token 计数作为 GPU、磁盘和网络压力的联合代理指标（Proxy）。调度器会实时监控各引擎的磁盘读取队列长度（read_qn），优先将请求分配给读取压力小的路径。
层内调度（Intra-Engine）：引入计算配额（Compute Quota）机制，基于 Attention 层的执行时间预测进行批处理选择，最大程度减少 GPU 步调不一致产生的气泡。

图4展示了数据是如何在 DRAM、CNIC 和 HBM 之间流动的

四、性能评价：线性扩展与效率翻倍

DeepSeek 的测试一向追求极致规模，这次直接拉出了 1,152 块 Hopper GPU 组成的大规模集群。

1. 离线批处理：打破 I/O 限制，逼近性能上限

在模拟强化学习训练中 Rollout 阶段的离线场景下，DualPath 展现了极强的吞吐提升能力。

加速比表现：在 DeepSeek-V3.2 660B 模型上，DualPath 相比基础架构（Basic）实现了最高 1.87 倍的吞吐量提升。在较小规模的 DS 27B 和 Qwen 32B 模型上，提升也分别达到了 1.78 倍和类似的趋势。
逼近理论极限：从图 7 可以看到，代表 DualPath 的橙色柱状图（Ours）在各种 Batch Size 和最大上下文长度（MAL）配置下，都无限接近于代表零 I/O 开销的灰色柱状图（Oracle）。这说明 DualPath 通过双路径加载，几乎完全消除了 KV-Cache 读取带来的性能损耗。
负载敏感度：DualPath 在“长上下文、短追加”的典型 Agent 负载下优势最明显。随着追加生成的 Token 长度增加（计算压力增大），基础架构的性能会逐渐接近 DualPath，这验证了 DualPath 核心解决的是 I/O 密集型瓶颈。

观察该图可以发现，随着 Agent 数量（Batch Size）从 512 增加到 4096，Basic 架构的 JCT 呈指数级跳升，而 Ours 保持了极佳的线性增长趋势，证明了其在大规模并发下的 I/O 韧性。

2. 在线服务：高负载下的 TTFT 稳定性

在线服务评价的核心在于：在满足 SLO（服务等级目标）的前提下，系统能承载多大的并发请求频率（APS）。

承载能力翻倍：在满足 TTFT ≤ 4s 的前提下，DualPath 在 DS 660B 模型上实现了 2.25 倍的 APS 提升（从 0.2 提升至 0.45+）。
TTFT 更加稳定：图 12（左）揭示了延迟优化的本质。在 Basic 架构中，随着 APS 增加，排队时间（Queuing Time）由于存储网卡带宽不足而呈爆炸式增长。而 DualPath 通过聚合解码引擎的带宽，使得读取 KV-Cache 的时间（Reading）和排队时间保持在极低且稳定的水平。
对解码无干扰：图 10 显示，DualPath 的逐 Token 生成延迟（TPOT）与 Basic 几乎一致。这证明了其基于 CNIC 和 QoS 的流量隔离机制非常成功，在搬运海量 KV-Cache 的同时，完全没有干扰到延迟敏感的 Decoding 过程。