聊聊大模型推理系统之 Arrow：自适应调度实现请求吞吐提升7.78倍背后的三大创新

Arrow 的核心突破在于其“双自适应”调度能力——既能动态调整请求的分发路径，也能实时重配计算实例的角色。研究团队发现，现实中的 LLM 请求在输入和输出长度上存在巨大波动，导致传统固定比例的 Prefill（填充）与 Decode（解码）节点配置极易失衡。在大模型（LLM）推理服务中，如何在论文链接见文末。

jike007gt

669人浏览 · 2025-08-30 13:54:07

jike007gt · 2025-08-30 13:54:07 发布

Arrow 的核心突破在于其“双自适应”调度能力——既能动态调整请求的分发路径，也能实时重配计算实例的角色。研究团队发现，现实中的 LLM 请求在输入和输出长度上存在巨大波动，导致传统固定比例的 Prefill（填充）与 Decode（解码）节点配置极易失衡。

在大模型（LLM）推理服务中，如何在输入/输出长度剧烈波动的现实场景下，依然保持高吞吐与低延迟？传统静态资源分配策略往往导致计算资源严重浪费。近期，来自中国科学技术大学、北航与京东的研究团队提出了一项名为 Arrow 的自适应调度机制，通过无状态实例与弹性实例池，实现了高达 7.78 倍的请求服务速率提升。这项研究不仅解决了Prefill-Decode 拆分架构（PD 拆分）的核心瓶颈，更为大模型服务系统的弹性化设计提供了新范式。

论文链接见文末

核心看点

Arrow 的核心突破在于其“双自适应”调度能力——既能动态调整请求的分发路径，也能实时重配计算实例的角色。研究团队发现，现实中的 LLM 请求在输入和输出长度上存在巨大波动，导致传统固定比例的 Prefill（填充）与 Decode（解码）节点配置极易失衡。为此，Arrow 创新性地将计算实例设计为无状态（stateless），使其可随时在 Prefill 和 Decode 任务间切换，彻底消除了传统“实例翻转”带来的分钟级延迟。通过实时监控Time-to-First-Token（TTFT，首字延迟）和Time-per-Output-Token（TPOT，字间延迟）等关键指标，Arrow 实现了 SLO（服务等级目标）感知的调度决策，在多种真实工作负载下，请求吞吐率最高提升了 5.62 倍（对比 PD 共置系统）和 7.78 倍（对比 PD 拆分系统）。

研究背景

当前，大模型推理服务普遍采用Transformer架构，其推理过程分为两个阶段：Prefill 阶段负责处理用户输入并生成首个输出 Token，计算复杂度与输入长度的平方成正比；Decode 阶段则以自回归方式逐个生成后续 Token，计算复杂度与批处理中的总 Token 数线性相关。为避免两阶段的相互干扰，学术界提出了Prefill-Decode 拆分架构，将两种计算任务分配给专用的实例。然而，这种架构引入了一个新问题：如何确定 Prefill 与 Decode 实例的最优配比？

传统方法依赖离线分析或仿真，但在输入/输出长度剧烈波动的真实场景中，静态配比无法适应动态负载，导致资源利用率低下。DistServe、Splitwise 等系统虽能动态“翻转”实例角色，但翻转过程需重启实例，耗时长达数分钟，无法应对突发流量。因此，如何实现低延迟、高灵活性的实例资源动态调度，成为提升 LLM 服务系统整体吞吐（goodput）的关键挑战。

图片

核心贡献

图片

方法创新：无状态实例与弹性实例池

Arrow 的首要创新是提出了无状态实例（stateless instance）设计。在传统系统中，一个实例被固化为 Prefill 或 Decode 角色。而在 Arrow 中，每个实例均可处理任意类型的任务。当一个请求的 Prefill 阶段完成后，该请求及其KV Cache（键值缓存，存储中间计算结果以避免重复计算）可被传输至任意其他实例进行 Decode。这使得实例的角色切换不再是“物理重启”，而是“逻辑重分配”，实现了零等待时间的资源重配。

为了高效管理这些无状态实例，Arrow 设计了弹性实例池（elastic instance pool），包含四个逻辑池：Prefill 池、Decode 池、P→D 池（正从 Prefill 转向 Decode）和 D→P 池（正从 Decode 转向 Prefill）。全局调度器通过移动实例在这些池间的归属，即可完成角色切换，整个过程无任何中断。

理论突破：基于 SLO 的实时调度洞察

图片

Arrow 的调度决策并非基于间接的请求长度或利用率，而是直接与 SLO 挂钩。研究团队通过分析，得出了几项关键洞察：

TTFT 具有强可预测性：由于 Prefill 时间与输入长度的平方成正比，系统可以精确预测新请求的 TTFT。Arrow 利用此特性，在请求进入队列前就判断其是否可能违反 SLO，从而提前触发实例重配。
TPOT 具有弱可预测性但非单调：Decode 阶段的延迟受多种因素影响，难以预测。但 TPOT 是所有字间延迟的平均值，具有“非单调性”，即短暂的延迟高峰不一定会导致 SLO 违规。因此，Arrow 采取“事后监测”策略，当观察到 TPOT 持续超标时，再调度更多实例加入 Decode。

实证成果：性能显著超越现有系统

图片

研究团队基于 vLLM 框架实现了 Arrow，并在 Llama-3.1-8B 模型上，使用 Azure Code、BurstGPT 等四种真实生产流量进行测试。在 90% SLO 达标率的约束下，Arrow 的性能表现如下：

图片

在高度突发的 Azure Code 负载下，Arrow 的可持续请求速率达到50 req/s，是 vLLM（PD 共置）的5.62 倍，是 vLLM-disaggregated（PD 拆分）的7.78 倍。
在长上下文场景（Mooncake Conversation）下，Arrow 通过将空闲的 Prefill 实例快速调度至 Decode 任务，释放了宝贵的内存资源，请求速率提升了3.73 倍（对比 vLLM）。
消融实验表明，Arrow 的“SLO 感知”调度策略比仅采用“最小负载”策略的基线高出1.67 倍的请求速率，证明了其自适应机制的有效性。
在扩展性测试中，随着 GPU 数量从 2 个增加到 8 个，Arrow 的 SLO 达标率实现了近似线性增长，展现了强大的横向扩展能力。

行业意义

Arrow 的研究成果为大模型即服务（LMaaS）领域指明了一条高效、弹性的技术路线。它解决了 PD 拆分架构从“理论优势”到“实践落地”的最后一公里问题，即动态资源调度的延迟与灵活性。其设计理念与云原生和微服务的弹性思想高度契合，有望成为未来大模型推理平台的标准组件。

该工作与我国推动算力基础设施高效利用的政策导向相符，通过提升单 GPU 的请求处理能力，可显著降低大模型服务的运营成本和能耗，助力实现“双碳”目标。未来，Arrow 的架构有望推动自动驾驶、智能客服等对延迟敏感的产业级应用，实现更快速、更稳定的 AI 交互体验。这一创新，正在悄然推动大模型服务基础设施的深层变革。

AI大模型学习福利

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获

四、AI大模型商业化落地方案

因篇幅有限，仅展示部分资料，需要点击文章最下方名片即可前往获

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

知识图谱+大模型协同应用教程：从零基础入门到精通，推荐实战指南，一篇搞定！

2048 AI社区

大模型应用关键技术：实时性保障与多轮对话一致性实践

摘要：本文探讨大模型应用中的实时性和多轮对话一致性技术。实时性保障通过模型轻量化、推理引擎优化和上下文缓存实现，以ONNX Runtime量化为例，将7B参数的Llama 2模型推理延迟从2.8秒降至1.1秒。多轮对话一致性通过上下文压缩、对话状态跟踪(DST)和结构化Prompt设计维护，案例演示了基于Redis的智能点餐系统如何跟踪用户状态。两项技术分别提升用户体验和交互逻辑的连贯性，适用于

2048 AI社区

深入解析检索增强生成（RAG）技术

摘要：本文介绍了检索增强生成（RAG）技术及其核心模块。RAG通过结合信息检索与生成模型，提升文本生成的准确性和时效性。其核心模块包括：1）知识库构建（数据采集、预处理、向量存储）；2）检索系统（语义检索、重排序优化）；3）LLM交互层（Prompt设计、后置校验）。文中通过电商客服、医疗咨询、金融报告等案例，结合代码示例（如Sentence-BERT嵌入、FAISS检索、GPT-2生成），展示