打破 Agent 推理“存储墙”:清北与DeepSeek 联手发布大模型新推理架构

论文:DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference


在二月份,DeepSeek又偷偷在arxiv上投放了一篇硬核论文,引起了大家对DeepSeek-V4的猜测与讨论。

这篇由清华大学北京大学与 DeepSeek(深度求索)联合发表的论文,并没有直接谈模型参数,而是切中了当前大模型落地的“七寸”:智能体(Agent)推理的存储带宽瓶颈。简单来说,当 LLM 变成 Agent,推理的逻辑变了,硬件的压力点也变了,这就需要有新的推理架构来应对新的挑战。DualPath 就是为了解决这些挑战而生的。

一、问题背景:Agent 带来的“存储墙”

在传统的聊天机器人场景中,你问一句,它答一句,上下文相对固定。但在智能体(Agentic)范式下,LLM 需要频繁地与环境交互(比如查浏览器、运行 Python 代码),一干就是几十甚至上百轮 。

这种模式带来了两个显著变化:

  1. 极高的 KV-Cache 命中率:因为每一轮只增加一点点新指令,95% 以上的上下文都是重复的。

  2. I/O 变重,计算变轻:GPU 不再忙着算数,而是在忙着从硬盘里“捞”之前存好的 KV-Cache。

而这也揭露出现在推理系统的痛点:在现在的架构里,预填充引擎(PE)忙着从硬盘搬数据,存储网卡累到冒烟;而解码引擎(DE)的网卡却在旁边闲着,形成了巨大的资源浪费 。

GPU 算力增长极快,但网络和显存带宽的增长却像蜗牛爬,这种“剪刀差”让 Agent 推理越来越卡 。这种负载不平衡严重限制了整个系统的吞吐量 。

二、架构创新:双路径加载与带宽池化

既然 PE 搬不动了,DE 又没活干,DualPath 的思路就是:让 DE 帮着 PE 一起搬数据

DualPath 的核心创新在于打破了“存储 → PE”的单一数据路径,引入了“存储到解码(Storage-to-Decode)”的新路径。并且在工程上将整个集群中原本被“孤立”在各节点的存储网卡整合进了一个全局虚拟资源池 。通过动态分配负载,系统可以同时动用 PE 和 DE 的带宽来加载同一个请求的记忆,彻底打破了单节点 I/O 的上限 。

数据流深度解析

  1. PE 读取路径:KV-Cache 从存储读入 PE 缓冲区,用于处理当前 layer 的 cache-miss 部分,随后将该层完整的 KV-Cache 传给 DE 进行持久化或后续使用 。

  2. DE 读取路径:KV-Cache 先被加载到 DE 缓冲区,再通过计算网络(RDMA)在 prefill 期间按需传回 PE,实现数据与计算的重叠 。

  3. 按层流式处理:为了应对 HBM 容量限制,DualPath 采用层级(Layerwise)加载范式,GPU 仅需持有单层 KV-Cache 即可开始计算,极大地提升了显存利用率和 batch size 。

对比左侧(传统单路径,PE 红灯满载)和右侧(DualPath,双路绿灯并进,利用率翻倍)。

三、工程落地:以 CNIC 为中心的流量管理

这是全篇最具“深度”的工程细节。直接在节点间搬运海量 KV-Cache 极易干扰模型推理的集体通信(Collective Primitives),如专家并行中的 AllToAll 。

1. 流量隔离与 QoS 策略

DualPath 放弃了无法控制服务质量(QoS)的 GPUDirect Storage 方案,转而采用以计算网卡(CNIC)为中心的数据搬运方式 :

  • 虚拟车道(Virtual Lanes, VL):在 InfiniBand 或 ROCe 网络中,将推理通信分配至高优先级VL,并将KV-Cache传输分配至低优先级VL。

  • 带宽配额:通过 VL 仲裁器为高优先级流量预留 99% 的带宽,确保KV-Cache传输仅能利用“间隙”流量,从而实现对首字延迟(TTFT)的零干扰。

2. 避免 PCIe 竞争

现有的 GPU 缺乏 PCIe 级别的 QoS 控制 。DualPath 通过 RDMA Write 直接操作 GPU 显存,建立了一个受控的本地主机到设备(H2D)数据通道,解决了搬运数据与模型执行之间的 PCIe 争抢问题 。

3. 双层调度算法

为了防止在“借路”过程中重新产生新的瓶颈,DualPath 实现了一个双层调度器 :

  • 层间调度(Inter-Engine):利用Token 计数作为 GPU、磁盘和网络压力的联合代理指标(Proxy)。调度器会实时监控各引擎的磁盘读取队列长度(read_qn),优先将请求分配给读取压力小的路径 。

  • 层内调度(Intra-Engine):引入计算配额(Compute Quota)机制,基于 Attention 层的执行时间预测进行批处理选择,最大程度减少 GPU 步调不一致产生的气泡 。

图4展示了数据是如何在 DRAM、CNIC 和 HBM 之间流动的

四、性能评价:线性扩展与效率翻倍

DeepSeek 的测试一向追求极致规模,这次直接拉出了 1,152 块 Hopper GPU 组成的大规模集群。

1. 离线批处理:打破 I/O 限制,逼近性能上限

在模拟强化学习训练中 Rollout 阶段的离线场景下,DualPath 展现了极强的吞吐提升能力。

  • 加速比表现:在 DeepSeek-V3.2 660B 模型上,DualPath 相比基础架构(Basic)实现了最高 1.87 倍 的吞吐量提升 。在较小规模的 DS 27B 和 Qwen 32B 模型上,提升也分别达到了 1.78 倍 和类似的趋势 。

  • 逼近理论极限:从图 7 可以看到,代表 DualPath 的橙色柱状图(Ours)在各种 Batch Size 和最大上下文长度(MAL)配置下,都无限接近于代表零 I/O 开销的灰色柱状图(Oracle) 。这说明 DualPath 通过双路径加载,几乎完全消除了 KV-Cache 读取带来的性能损耗 。

  • 负载敏感度:DualPath 在“长上下文、短追加”的典型 Agent 负载下优势最明显 。随着追加生成的 Token 长度增加(计算压力增大),基础架构的性能会逐渐接近 DualPath,这验证了 DualPath 核心解决的是 I/O 密集型瓶颈 。

观察该图可以发现,随着 Agent 数量(Batch Size)从 512 增加到 4096,Basic 架构的 JCT 呈指数级跳升,而 Ours 保持了极佳的线性增长趋势,证明了其在大规模并发下的 I/O 韧性 。

2. 在线服务:高负载下的 TTFT 稳定性

在线服务评价的核心在于:在满足 SLO(服务等级目标)的前提下,系统能承载多大的并发请求频率(APS)。

  • 承载能力翻倍:在满足 TTFT ≤ 4s 的前提下,DualPath 在 DS 660B 模型上实现了 2.25 倍 的 APS 提升(从 0.2 提升至 0.45+)。

  • TTFT 更加稳定:图 12(左)揭示了延迟优化的本质。在 Basic 架构中,随着 APS 增加,排队时间(Queuing Time)由于存储网卡带宽不足而呈爆炸式增长 。而 DualPath 通过聚合解码引擎的带宽,使得读取 KV-Cache 的时间(Reading)和排队时间保持在极低且稳定的水平。

  • 对解码无干扰:图 10 显示,DualPath 的逐 Token 生成延迟(TPOT)与 Basic 几乎一致 。这证明了其基于 CNIC 和 QoS 的流量隔离机制非常成功,在搬运海量 KV-Cache 的同时,完全没有干扰到延迟敏感的 Decoding 过程。

总结来说,在这 1152 块 Hopper GPU 的测试中,DualPath 展现了卓越的性能。

  • 吞吐量:在智能体 RL 训练的 rollout 阶段(离线场景),吞吐量提升达 1.87 倍 。

  • 可扩展性:从 6 节点(2P4D)线性扩展至 144 节点(48P96D),任务完成时间(JCT)保持稳定,证明了调度器不存在单点瓶颈 。

  • 线上服务:在满足 SLO(如 TTFT < 4s)的前提下,平均服务能力提升了 1.96 倍 。

五、总结

从性能数据来看,DualPath 不仅仅是一个“加速插件”,它实际上重新定义了 PD 分离架构下的数据边界。通过将存储、计算、网络三者进行深度的空间和时间重叠(Overlap),它成功将 Agent 推理从 I/O 泥潭中拉了出来,为百万级长上下文 Agent 的大规模商业化落地清除了最后的障碍。

Future  加入我们的学术社区

点亮创新之光 照亮科研梦想

如果您希望持续获取最新的期刊动态会议信息论文写作与投稿技巧,我们诚挚邀请您加入烁智研学社区

关注“烁智研学”公众号回复“CCF期刊微信群”

扫左侧二维码码加入“CCF期刊QQ交流群”

这是一个致力于共同成长、资源共享的科研平台。我们期待您的到来,一起在科研道路上走得更远、更稳!^o^y

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐