挑战Claude4的8B Agent！NUS提出AgenTracer：面向多智能体系统的失败归因

摘要：新加坡国立大学研究团队针对多智能体系统（Multi-Agent Systems）高失败率问题，提出首个全自动失败归因框架AgenTracer。通过构建TracerTraj数据集（2000+高保真失败轨迹）和设计多粒度强化学习算法，其微调的8B参数模型在定位根本错误时，准确率超越GPT-4.1等大型模型达18.18%。实验表明，该框架不仅能精准识别导致系统失败的**"决定性错误&q

青稞社区.

612人浏览 · 2025-09-06 18:58:02

青稞社区. · 2025-09-06 18:58:02 发布

作者：Guibin Zhang，NUS博士生
首发：挑战Claude4的8B Agent！NUS提出AgenTracer：面向多智能体系统的失败归因

随着大语言模型（LLM）的发展进入深水区，研究范式正从构建单一的、全能的单体智能体（Single LLM Agent）转向设计由多个LLM协同工作的多智能体系统（Multi-Agent Systems）。这类系统通过复杂的角色分配、工具调用和通信协议，在解决高度复杂的任务时展现出巨大潜力。然而，系统复杂性的提升也带来了新的挑战：系统脆弱性（System Fragility）。实证研究表明，当前主流的多智能体框架在复杂任务中的失败率可高达86.7%，这严重制约了其在关键场景的可靠应用。

在这一背景下，一个核心的科学问题亟待解决：当一个多智能体系统执行失败时，我们如何精确、高效地定位导致失败的根本原因？这个问题，我们称之为智能体系统中的失败归因（Failure Attribution）。

来自新加坡国立大学等机构的研究者在最新的论文《AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems?》中，首次为该问题提供了系统性的框架。这项工作不仅提出了首个全自动的失败轨迹标注管线，其微调得到的8B专用模型 AgenTracer-8B，更是在失败归因这一任务上，展现了超越GPT-4.1、Gemini-2.5-Pro等大型闭源模型的卓越性能。

论文标题：AgenTracer: Who Is Inducing Failure in the LLM Agentic Systems?
论文链接：https://arxiv.org/abs/2509.03312
项目主页：https://bingreeky.github.io/atracer/

01. 问题定义：
失败归因的复杂性与现有方法的局限

失败归因的目标是，在一次失败的执行轨迹中，识别出那个关键的 “决定性错误”（Decisive Error） 。根据论文的严格定义，决定性错误指 轨迹中最早发生的一个错误行为，只要该行为被修正，整个系统便能从失败转向成功。

这项任务的难度远超常规的文本理解或代码调试，原因在于：

长程依赖性：多智能体系统的执行轨迹通常包含数十乃至上百步的交互，错误的影响可能在多步之后才显现，导致根源与表象在时序上分离。
归因模糊性：轨迹中可能存在多个次优或轻微错误的行为，但只有少数是真正导致任务失败的“决定性”因素。
现有模型能力不足：论文的基线实验表明，即便是当前最强的推理模型，在没有针对性训练的情况下，进行失败归因的准确率也普遍低于10%，缺乏实用价值。

长期以来，该领域的研究受限于高质量标注数据的匮乏，以及缺乏有效的方法论来处理这种复杂的因果追踪问题。

02. AgenTracer框架：
数据与方法的双重创新

为解决上述挑战，研究者提出了AgenTracer框架，其核心贡献体现在两个方面：

第一：构建全自动、高保真的失败轨迹标注管线

为了从根本上解决数据瓶颈，AgenTracer设计了一套无需人工干预的数据生成流程，该流程由两个互补的机制构成：

反事实回放（Counterfactual Replay）：针对真实的失败轨迹，系统从第一步开始，依次将每一步的智能体行为替换为由Oracle（理想的正确行为）提供的行为，并重新模拟后续所有步骤。一旦在某一步替换后，任务结果由失败转为成功，该步骤即被自动标注为决定性错误的发生点。
程序化故障注入（Programmatic Fault Injection）：针对成功的执行轨迹，系统在其中选择一个关键步骤，通过程序化的方式（如修改代码返回值、颠倒逻辑判断）引入一个错误，从而生成一个失败的合成样本。由于错误的根源是预先设定的，这为数据集提供了高精度、多样化的负样本。

基于此管线，团队构建了TracerTraj数据集，包含超过2000条覆盖编码、数学和通用智能体任务的高保真度失败轨迹，为后续模型的监督与优化提供了坚实的基础。

第二：基于多粒度强化学习的轻量级追踪器 AgenTracer-8B

在数据的基础上，团队以Qwen3-8B为基座模型，设计了多粒度强化学习（Multi-granular Reinforcement Learning） 配合 GRPO的训练范式来优化失败归因的准确性。其奖励函数（Reward Function）经过精心设计，旨在同时满足两个层面的定位需求：

智能体级（Agent-level）奖励：一个离散的二元奖励，用于判断模型预测的责任智能体是否正确。
步骤级（Step-level）奖励：一个连续的奖励信号，采用高斯核函数来度量预测的错误步骤与真实错误步骤之间的时序距离，距离越近，奖励越高。

通过优化这一复合奖励目标，AgenTracer-8B学会在一次推理中，同时输出对责任智能体和错误步骤的精准判断。

03. 实证评估：
专用模型在特定任务上的性能优势

论文在公开基准Who&When和自建的TracerTraj测试集上，将AgenTracer-8B与一系列不同规模的开源和闭源模型进行了全面对比。评估在两种设置下进行：w/ G（模型可访问真实解以辅助判断）和w/o G（模型在无真实解信息的条件下独立判断，更具现实意义）。

关键实验结果如下：

在Who&When基准上，8B参数量的AgenTracer在智能体级(agent-level)和步骤级(step-level)归因的准确率上，均显著优于GPT-4.1、Claude-4-Sonnet等模型。在部分设置下，其性能优势高达18.18%。其中，step-level的准确率更具备现实意义，因为它代表鉴错智能体能否明确地指出到底是哪一步骤导致了错误或系统崩溃。