GLM多智能体框架：让大模型推理效率提升15倍，token消耗降低96%！

文章介绍了GLM多智能体图思维链框架，由南京大学与蚂蚁集团等研究者提出，通过三个LLM智能体和一个Graph RAG检索器将推理任务分解为分类、推理、动作生成和图检索。相比传统Graph-CoT，GLM采用分支推理和选择性上下文共享机制，在保持推理质量的同时将准确率提升38%，token消耗降低95.7%，推理延迟降低90.3%，吞吐量提升最高15.1倍，为大规模复杂场景推理提供了高效解决方案。

功城师

539人浏览 · 2025-12-24 08:45:00

功城师 · 2025-12-24 08:45:00 发布

简介

图思维链（Graph-CoT）使大型语言模型（LLMs）能够对图结构知识进行逐步推理，但现有技术方案因采用单智能体整体提示、上下文重复编码（re-encoding）及低效的服务执行，存在准确率低、token消耗过高、延迟严重及吞吐量低等问题。

为此，**南京大学联合蚂蚁集团等研究者提出了多智能体图思维链框架GLM，**包含三个LLM智能体和一个Graph RAG检索器，将推理任务分解为分类、推理、动作生成和图检索。GLM通过分支推理和选择性上下文共享机制，在保持推理质量的同时缩短提示长度、减少推理迭代次数，从而提升准确率并显著降低总体token消耗。与 Graph-CoT 基线相比，GLM 将答案准确率最高提升 38%，Token消耗最多降低 95.7%，推理延迟降低 90.3%，吞吐量最高提升达 15.1 倍，从而为大规模复杂现实场景的推理任务提供了高效可行的实施路径。

论文标题：

Scaling Graph Chain-of-Thought Reasoning: A Multi-Agent Framework with Efficient LLM Serving
论文链接：

https://arxiv.org/pdf/2511.01633v1

一、方法

（1）图思维链（Graph-CoT）

传统检索增强生成（RAG）流程主要基于独立文本片段（即扁平化文本）进行操作，忽略了现实世界数据中普遍存在的复杂结构与实体关联依赖，如知识图谱、企业数据湖、科学知识库、金融网络等结构化数据集。

为弥补这一局限，Graph-CoT通过LLM推理与图检索来扩展RAG（如图1所示），实现了LLM与图数据之间的迭代交互。Graph-CoT允许LLM迭代地查询图节点、检查属性、探索相邻节点并沿着图结构积累证据。

图1：Graph-CoT 框架示意图

当前Graph-CoT框架在处理需要多跳推理的查询时面临两大挑战：

(1) 现有的 Graph-CoT 框架在单智能体架构下难以有效处理复杂的多跳推理任务。随着推理步骤增加，输入序列持续延长并累积冗余上下文，导致信息稀释和中间信息丢失（lost-in-the-middle）问题。此外，由于重复的前缀与持续增加的上下文，现有框架还面临高昂的token开销。

(2) 推理效率低下。在并发场景下，KV-cache命中率较低。简单的LRU淘汰策略与实体的非规范排序阻碍了前缀复用，同时图检索延迟随数据规模扩大而持续增加。

（2）多智能体图思维链框架GLM

图3：多智能体推理框架工作流程

**GLM框架工作流程如图3所示，**包含一个Graph RAG检索器和三个LLM智能体，各智能体根据任务特定输入运行，并调用推理引擎生成中间或最终结果，而检索器则在每一步提供必要的图谱事实数据。

图4：Graph-CoT 与 GLM 的智能体对比

分类智能体（C-Agent）：用于判定问题类型属于确定性或非确定性。确定性的问题可直接通过检索图信息来回答，而非确定性问题则需要在多个节点和关系间进行多跳推理。

推理智能体（R-Agent）：负责判定当前已知信息是否足以回答给定问题。若现有信息不足，该智能体会识别出需要补充哪些额外信息；反之，则直接生成最终答案。推理智能体通过一种笔记机制（notebook mechanism）运作，能在思维链推理过程中持续积累和维护已知事实。在每一步推理中，该notebook都会通过检索器从图数据中获取新事实并更新。

动作智能体（A-Agent）：负责生成可执行的 Python 代码片段，以获取推理智能体所识别出的缺失信息。与以往的 Graph-CoT 系统将操作限制于预定义功能不同，该智能体能够生成多个函数组合、基础控制结构（if-else、for）及标准数据类型（set, list, dict）的表达式。这使得复杂的推理任务可以在单次执行中完成，减少了多轮交互。智能体通过print()语句仅输出必要结果，避免冗余的中间上下文信息。

如图6所示，对于需要从多个顶点获取信息的查询，单个代码片段可在一轮推理中调用多个图函数，从而减少交互步骤。对于涉及中间计算的查询，该代码片段可在内部执行本地数据处理（例如，求平均值或交集），避免了冗余的中间结果存储并降低推理开销。这种优化有效减少了每条查询所需的推理轮数和总token消耗。

图6：代码片段示例，减少推理步骤

除了基于LLM的智能体外，GLM 的另一个关键组件是Graph RAG检索器，它充当动作智能体与底层图结构数据之间的桥梁。当动作智能体生成一段 Python 代码以获取缺失信息时，系统通过 Python 的 exec() 函数执行，并将返回结果作为新知识追加至智能体的notebook中，供后续推理使用。

表 2 总结了所有核心函数。研究团队在 Graph-CoT的检索接口基础上进行了扩展，新增了 NodeInfo() 函数，用于提供以顶点为中心（vertex-centric）的上下文信息。RetrieveNode() 通过对图嵌入索引进行向量搜索，将实体映射到对应的节点 ID；其余函数则负责将节点ID映射至内存字典中存储的属性和元数据。

表2：Graph RAG检索器核心函数

（3）面向 Graph-CoT 的 LLM 推理优化

在多智能体图思维链框架GLM的基础上，研究团队还提出了三个面向Graph-CoT的LLM推理优化技术，旨在提升端到端推理效率、降低端到端延迟并提高吞吐量。

以顶点为中心的KV缓存复用模型

研究团队提出以顶点为中心的KV缓存复用模型，利用图结构实现跨查询的前缀KV缓存共享，降低LLM预填充阶段延迟。

面对非确定性查询时，notebook能够在多轮迭代中会逐步从Graph RAG中积累信息。如图7所示，首次迭代会检索特定节点关联的顶点块。推理智能体处理该顶点块（vertex chunk 1）时生成对应KV缓存。由于notebook能够持续保留这些信息，同一顶点块在后续迭代中仍保持关联性，使得其KV缓存可被复用，从而消除冗余计算。

假设出现第二个独立查询也需检索相同顶点块（蓝色高亮部分），由于该顶点块的KV缓存已预先计算，系统可直接复用而无需重新计算。

图7：前缀KV缓存复用模型示例

基于优先级的 KV 缓存调度策略

智能体输入的内容中，不同片段未来复用可能性存在显著差异。对于复用概率较低的KV缓存项应先被驱逐，而具有高复用概率的缓存项则需保留更长时间。为此，研究团队提出了一种基于优先级的 KV 缓存调度策略，该策略能识别任务特定的复用模式，智能地管理缓存保留，从而减少冗余计算并提升整体推理效率。

图8：KV 缓存调度示例

流水线执行策略

研究团队设计了一种新颖的流水线执行策略，实现检索操作与LLM推理阶段的重叠执行，有效隐藏检索延迟，提升系统整体响应速度。

研究团队将动作智能体的LLM推理划分为两个阶段：包含RetrieveNode调用的那一行代码的预填充阶段与解码阶段；剩余 token 的解码阶段。

如图9所示，该策略的核心思想是将检索器执行过程与动作智能体的第二阶段流水线化。绿色部分代表LLM的预填充阶段，黄色部分对应初始解码阶段（包含RetrieveNode函数调用的解码）。一旦该调用被解码，系统立即触发检索过程。当检索器执行时（粉色段所示），LLM同时解码剩余token。虚线箭头展示了检索执行与token生成的重叠区域，这种重叠正是流水线策略的基础，能有效隐藏检索延迟并提升多智能体执行的整体吞吐量。

图9：流水线执行策略

为进一步降低检索延迟，研究团队维护了一个有界的全局LRU缓存，将 RetrieveNode 的输入（即文本查询）映射到其对应的输出 NodeIDs。这种设计能避免重复检索导致的冗余计算。当系统在第一阶段检测到RetrieveNode调用时，会优先在缓存中匹配查询记录。若存在，则直接复用缓存结果；否则，系统将执行检索操作并将结果存入缓存以供后续使用。

二、评估

表4：使用 Rouge-L（R-L）和 GPTScore 评估的各LLM变体基准准确率对比

GLM 相较于所有基线方法在准确率上的提升效果如表 4 所示。实验结果表明，GLM 在所有评测基准上均取得显著且稳定的性能优势。GLM 相较于Base LLMs准确率提升了60%，相较于 Text RAG 提升了62%，相较于Graph RAG提升了55%，相较于 Graph-CoT 提升了 38%。

相较于Graph-CoT的改进主要体现在需要多跳推理和多节点信息聚合的问题上。Graph-CoT在长思维链推理场景中难以保持逻辑连贯性，并且频繁超出步数限制时；GLM通过将子任务分配给专用智能体，并用确定性、可执行代码片段替代重复的LLM 推理过程，从而实现了更结构化、更准确且更具可扩展性的推理。

图10：token消耗对比

Graph-CoT与GLM在推理过程中的token消耗对比如图10所示。Graph-CoT需要迭代多步推理、维护长共享前缀以及保留冗余的上下文，产生了大量的token开销。相比之下，GLM 的token使用量大幅降低。其中，GLM每个实例的平均token消耗范围为1,538∼2,974个，而Graph-CoT则高达 22,613∼45,490 个，GLM 最多可减少 95.7% 的token使用量。

为深入理解这一改进的来源，研究团队进一步通过两个维度分解token消耗：（1）单次查询的平均LLM调用次数；（2）单次调用的平均token消耗量。结果显示，GLM每个实例仅需2～3次LLM调用，单次调用约消耗769～991个token；而Graph-CoT每个查询需执行9～14次调用，单次调用消耗1,875～4,483个token。这些结果表明，GLM****通过同时降低 LLM 调用频率和单次调用的token数量，大幅提升了推理效率。

这种效率源于GLM的三大优势：

（1）由分类智能体、推理智能体和动作智能体构成的多智能体架构，能够保证各组件在任务特定上下文中运行，从而避免提示词冗余；

（2）与 Graph-CoT 在各推理步骤间传递完整的中间推理状态不同，GLM 仅在一个轻量级notebook中维护必要的图衍生事实，显著缩短了提示长度；

（3）GLM 用简洁的可执行的代码片段替代了冗长的多步推理链，从而最小化单任务所需的LLM调用次数。

图11：端到端延迟对比

图11展示了Graph-CoT与GLM的端到端延迟。结果表明，Graph-CoT处理每个查询需要11.3至38.6秒，而GLM完成相同任务仅需2.8至5.9秒，延迟降低幅度达74.7%至90.3%。Graph-CoT的高延迟主要源于其单智能体执行模型，以及缺失系统级优化。相比之下，GLM通过其内在的多智能体设计和三项系统优化实现了更低的延迟。

图14：吞吐量对比

吞吐量评估如图14所示，吞吐量定义为每单位时间内处理的问答对数量。Graph-CoT每秒仅处理0.6 ∼ 2.2个查询。相比之下，GLM 实现了更高的吞吐量，每秒能够处理6.8 ∼ 9.1个查询，相比Graph-CoT可实现3.2倍至15.1倍的吞吐量提升。

三、如何系统的学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述