1 引言:AI Agent的范式革命

人工智能领域正经历着从"工具型AI"向"自主型智能体"(Autonomous Agent)的深刻范式转变。传统的AI系统主要作为被动响应的工具,根据用户输入生成相应输出;而AI Agent则展现出前所未有的自主性——它们能够感知环境、制定目标、规划行动、使用工具,并在复杂动态环境中持续学习与适应。这一转变标志着人工智能从"弱人工智能"向更具通用性的智能形态演进的关键一步。

1.1 AI Agent的定义与核心特征

AI Agent,即人工智能智能体,是指能够在特定环境中自主感知、推理、决策并执行行动以实现特定目标的智能系统[1]。与单纯的语言模型不同,AI Agent具备四个核心特征:自主性(Autonomy)、反应性(Reactivity)、主动性(Pro-activeness)和社会性(Social Ability)[2]。

AI Agent核心特征

自主性 Autonomy

反应性 Reactivity

主动性 Pro-activeness

社会性 Social Ability

独立决策

目标导向

环境感知

实时响应

主动规划

机会把握

多Agent协作

人机交互

从技术架构角度看,现代AI Agent通常由三大核心模块构成:感知模块(Perception Module)负责从多模态环境输入中提取信息;认知模块(Cognitive Module,通常以大语言模型为核心)进行推理、规划与决策;行动模块(Action Module)则通过工具调用、API执行或物理交互来改变环境状态[3]。这种模块化架构使得AI Agent能够处理远超传统AI系统能力范围的复杂任务。

执行输出

AI Agent架构

外部环境

用户输入

多模态数据

工具反馈

感知模块
Perception

认知模块
Cognition
LLM核心

行动模块
Action

工具调用

代码执行

自然语言响应

1.2 从LLM到Agent:能力跃迁的技术逻辑

大语言模型(Large Language Models, LLMs)的崛起为AI Agent的发展提供了强大的认知基础。GPT-4、Claude、Gemini等前沿模型展现出惊人的语言理解、知识推理和代码生成能力[4]。然而,单纯的LLM存在明显局限:知识截止于训练数据、缺乏与外部世界的实时交互、无法执行实际行动。

AI Agent范式通过在LLM基础上增加工具使用能力(Tool Use)、记忆机制(Memory Mechanisms)和规划框架(Planning Frameworks),实现了从"静态知识库"到"动态行动者"的质变。研究表明,具备工具调用能力的Agent系统在金融分析任务中的准确率比纯LLM提升了40%以上[5]。

1.3 研究意义与应用前景

AI Agent技术的成熟正在重塑多个行业的运作模式。在软件开发领域,GitHub Copilot、Devin等编程Agent已能自主完成代码编写、调试和部署;在科学研究中,Agent系统能够自主设计实验、分析数据并生成论文;在客户服务场景,智能客服Agent可处理80%以上的常见咨询[6]。

学术界对AI Agent的研究热情持续高涨。根据arXiv统计,2024年以"AI Agent"或"Autonomous Agent"为关键词的论文数量同比增长超过300%[7]。这一领域的快速发展不仅推动了人工智能基础理论的进步,也为构建通用人工智能(AGI)提供了重要的技术路径。

2 AI Agent的理论基础与认知架构

2.1 智能体的形式化定义与数学模型

从理论计算机科学视角,AI Agent可以用数学框架进行严格定义。一个经典的智能体模型可表示为元组 A=(S,A,T,R,O,π)A = (S, A, T, R, O, \pi)A=(S,A,T,R,O,π),其中:

  • SSS 表示环境状态空间
  • AAA 表示可执行的行动集合
  • T:S×A→Δ(S)T: S \times A \rightarrow \Delta(S)T:S×AΔ(S) 是状态转移函数
  • R:S×A→RR: S \times A \rightarrow \mathbb{R}R:S×AR 是奖励函数
  • OOO 是观测空间
  • π:O→Δ(A)\pi: O \rightarrow \Delta(A)π:OΔ(A) 是智能体的策略函数[8]

在LLM-based Agent的语境下,策略函数 π\piπ 由大语言模型参数化实现。模型的输入包括系统提示、任务描述、历史交互和可用工具,输出则是下一步行动决策。这种形式化框架为分析和设计Agent系统提供了坚实的理论基础。

2.2 认知架构:感知-推理-行动的闭环

现代AI Agent的认知架构遵循感知-推理-行动(Perception-Reasoning-Action)的闭环循环,这一设计灵感来源于人类认知心理学和经典人工智能的BDI(Belief-Desire-Intention)模型[9]。

行动模块 记忆系统 认知模块(LLM) 感知模块 环境 行动模块 记忆系统 认知模块(LLM) 感知模块 环境 loop [Agent执行循环] 环境状态/观测 结构化输入 查询相关记忆 返回历史信息 推理与规划 决策指令 执行行动 更新记忆

2.2.1 感知模块:多模态信息融合

感知模块是Agent与外部环境交互的接口。在纯文本场景中,感知主要体现为对用户输入的解析;在多模态场景中,Agent需要处理图像、音频、视频等多种输入形式。研究表明,具备视觉感知能力的Agent在网页导航任务中的成功率比纯文本Agent高出35%[10]。

感知模块的核心挑战在于信息筛选特征提取。Agent需要从海量环境输入中识别与当前任务相关的关键信息,并将其转化为认知模块可处理的结构化表示。这一过程通常涉及注意力机制、目标检测、语义分割等计算机视觉和自然语言处理技术。

2.2.2 认知模块:推理与决策的核心

认知模块是AI Agent的"大脑",负责执行复杂的推理、规划和决策任务。在LLM-based Agent中,这一功能主要由大语言模型承担。认知模块的运作机制可以从三个层次理解:

推理层(Reasoning Layer):负责解决需要多步逻辑推导的问题。Chain-of-Thought(CoT)提示技术通过引导模型生成中间推理步骤,显著提升了复杂任务的表现。研究表明,在数学推理任务GSM8K上,CoT prompting使GPT-3的准确率从17.9%提升至58.8%[11]。

规划层(Planning Layer):将高层目标分解为可执行的子任务序列。规划算法包括经典的A*搜索、蒙特卡洛树搜索(MCTS),以及基于LLM的启发式规划。ReAct框架将推理(Reasoning)与行动(Acting)交织进行,允许Agent根据环境反馈动态调整计划[12]。

决策层(Decision Layer):在多个可行行动中选择最优策略。决策过程可能涉及期望效用计算、风险权衡、长期后果预测等复杂考量。

认知层次 核心功能 关键技术 典型应用
推理层 多步逻辑推导 CoT、ToT、ReAct 数学问题求解
规划层 任务分解与调度 A*、MCTS、LLM规划 项目管理、导航
决策层 行动选择与优化 期望效用、强化学习 资源分配、投资

2.2.3 行动模块:工具使用与环境交互

行动模块赋予AI Agent改变环境状态的能力。现代Agent系统的行动能力主要通过工具使用(Tool Use)实现,包括调用外部API、执行代码、查询数据库、操作物理设备等[13]。

工具使用的核心机制是函数调用(Function Calling)。当Agent判断需要外部工具时,它会生成包含工具名称和参数的结构化调用请求。系统执行该调用后将结果返回给Agent,形成完整的交互闭环。研究表明,具备工具使用能力的Agent在实时信息查询任务中的准确率比纯LLM高出60%以上[14]。

2.3 记忆机制:短期记忆与长期记忆

记忆是智能体实现持续学习和长期规划的关键。AI Agent通常采用双记忆系统架构,模拟人类认知心理学的短期记忆与长期记忆分工[15]。

短期记忆(Short-term Memory)维护当前任务上下文,包括最近的对话历史、中间计算结果和临时状态信息。由于LLM的上下文窗口限制,短期记忆需要精心管理——相关信息的保留与无关信息的遗忘直接影响Agent的性能。

长期记忆(Long-term Memory)存储跨任务的持久知识,包括用户偏好、领域知识、过往经验和习得技能。长期记忆的实现通常依赖向量数据库(Vector Database),通过嵌入(Embedding)技术将信息编码为高维向量,支持基于语义相似度的快速检索[16]。

Voyager项目提出了创新的技能库(Skill Library)机制:Agent在Minecraft游戏中习得的代码技能被封装为可复用函数存入向量库,实现能力的持续积累[17]。这种终身学习(Lifelong Learning)范式代表了AI Agent发展的重要方向。

记忆系统架构

上下文窗口

检索查询

向量数据库

嵌入向量存储

语义检索

长期记忆 Long-term Memory

用户偏好

领域知识

习得技能

过往经验

短期记忆 Short-term Memory

当前对话上下文

中间计算结果

临时状态信息

大语言模型

3 AI Agent的核心技术范式

3.1 提示工程与推理增强技术

提示工程(Prompt Engineering)是激发LLM推理能力的基础技术。通过精心设计的提示模板,可以引导模型生成更高质量的推理过程和决策输出。

3.1.1 Chain-of-Thought:思维链推理

Chain-of-Thought(CoT)提示技术由Google Research团队于2022年提出,其核心思想是通过展示包含中间推理步骤的示例,引导LLM在解决问题时"展示思考过程"[18]。CoT prompting的形式化表达为:

给定输入问题 xxx,标准提示直接要求模型输出答案 yyy;而CoT提示则要求模型生成推理链 c=(c1,c2,...,cn)c = (c_1, c_2, ..., c_n)c=(c1,c2,...,cn) 后再给出最终答案,即 P(y∣x)=∑cP(y∣c,x)P(c∣x)P(y|x) = \sum_c P(y|c,x)P(c|x)P(yx)=cP(yc,x)P(cx)

CoT技术存在多种变体:Zero-shot CoT仅需在提示末尾添加"Let’s think step by step"即可触发推理;Few-shot CoT提供多个含推理过程的示例;Self-Consistency CoT生成多条推理路径并通过投票机制选择最一致的答案[19]。

3.1.2 ReAct:推理与行动的协同

ReAct(Reasoning + Acting)框架将推理与行动紧密结合,形成交替进行的认知循环[20]。在每个时间步 ttt,Agent执行:

  1. 思考(Thought):基于当前观测 oto_tot 和记忆 mtm_tmt 生成推理 rtr_trt
  2. 行动(Action):根据推理结果选择行动 at=π(rt)a_t = \pi(r_t)at=π(rt)
  3. 观测(Observation):执行行动获得环境反馈 ot+1o_{t+1}ot+1

ReAct的形式化表示为序列 {(r1,a1,o1),(r2,a2,o2),...,(rn,an,on)}\{(r_1, a_1, o_1), (r_2, a_2, o_2), ..., (r_n, a_n, o_n)\}{(r1,a1,o1),(r2,a2,o2),...,(rn,an,on)},其中每个推理步骤都建立在前序行动的结果之上。这种设计使Agent能够根据实时反馈动态调整策略,有效应对不确定性环境。

3.1.3 Tree-of-Thought:树状推理搜索

Tree-of-Thought(ToT)将推理过程建模为树状搜索,每个节点代表一个中间思考状态,边代表推理步骤[21]。Agent通过探索多条推理路径、评估各路径前景、回溯优化,最终找到最优解。

ToT的形式化框架包含四个核心组件:

  • 思维分解:将问题分解为离散的思维步骤
  • 思维生成:从每个节点生成 kkk 个候选思维
  • 状态评估:使用启发式函数评估各节点的价值
  • 搜索算法:应用BFS、DFS或MCTS等搜索策略

实验表明,ToT在需要探索性推理的任务(如24点游戏)上显著优于线性CoT方法[22]。

Tree-of-Thought

根节点

候选1

候选2

候选3

评估

最优解

ReAct框架

思考

行动

观测

Chain-of-Thought

问题

步骤1

步骤2

步骤3

答案

3.2 工具学习与函数调用

工具学习(Tool Learning)是AI Agent扩展能力边界的关键机制。通过调用外部工具,Agent可以获取实时信息、执行精确计算、操作物理系统,从而克服LLM固有的知识截止和幻觉问题。

3.2.1 Toolformer:自主学习工具使用

Toolformer由Meta AI Research提出,是第一个能够自主学习使用工具的语言模型[23]。其核心创新在于自监督学习框架:模型通过分析大量文本数据,自动识别哪些位置适合插入工具调用,并学习正确的调用格式。

Toolformer支持多种工具类型:

  • 搜索引擎:获取最新信息,解决知识过时问题
  • 计算器:执行精确数学运算,避免计算错误
  • 日历:处理日期时间相关查询
  • 翻译API:实现跨语言交流

实验表明,Toolformer在下游任务上的零样本性能显著提升,同时保持了强大的文本生成能力[24]。

3.2.2 APIBench与Gorilla:大规模API调用

Gorilla项目专注于提升LLM调用大规模API的能力[25]。该项目构建了APIBench数据集,包含超过1,600个API的详细文档和调用示例。通过在该数据集上微调,Gorilla模型在API调用准确率上超越了GPT-4,同时大幅减少了幻觉问题。

APIBench的构建遵循严格的质量标准:每个API条目包含功能描述、参数说明、返回值格式、错误处理指南和代码示例。这种结构化文档使模型能够学习API的语义特征,实现准确的工具选择(从候选集中选择正确的API)和参数生成(构造符合规范的调用参数)[26]。

3.2.3 工具选择的决策机制

工具选择是Agent决策过程的关键环节。给定可用工具集合 T={t1,t2,...,tn}T = \{t_1, t_2, ..., t_n\}T={t1,t2,...,tn} 和当前任务 qqq,Agent需要选择最优工具子集 T∗⊆TT^* \subseteq TTT 来最大化任务完成概率:

T∗=arg⁡max⁡T′⊆TP(success∣q,T′)T^* = \arg\max_{T' \subseteq T} P(\text{success}|q, T')T=argTTmaxP(successq,T)

实践中,工具选择通常采用两阶段策略:首先使用检索模型从工具库中召回候选工具,然后由LLM基于任务描述和工具文档进行精细选择。研究表明,这种策略在千级工具库场景下仍能保持90%以上的选择准确率[27]。

3.3 规划与任务分解

复杂任务处理是AI Agent的核心能力。有效的规划机制需要将高层目标分解为可管理的子任务,并合理安排执行顺序。

3.3.1 任务分解策略

层次化任务分解(Hierarchical Task Decomposition)将复杂目标递归分解为子目标树。形式化地,任务 TTT 可分解为子任务集合 {T1,T2,...,Tn}\{T_1, T_2, ..., T_n\}{T1,T2,...,Tn},满足:

Complete(T)  ⟺  ⋀i=1nComplete(Ti)\text{Complete}(T) \iff \bigwedge_{i=1}^n \text{Complete}(T_i)Complete(T)i=1nComplete(Ti)

分解策略包括:

  • 顺序分解:子任务按线性顺序执行,后序任务依赖前序结果
  • 并行分解:独立子任务可并发执行,提高效率
  • 条件分解:根据中间结果动态选择后续分支

3.3.2 规划算法:从经典搜索到LLM启发式

传统AI规划算法如A*、STRIPS、PDDL在结构化环境中表现优异,但难以处理开放域的自然语言任务。LLM-based规划结合了大模型的语义理解能力和经典算法的系统性[28]。

LLM-as-Planner范式直接使用语言模型生成行动计划。研究表明,通过适当的提示设计,GPT-4能够生成高质量的家庭机器人任务规划,成功率接近专业规划器[29]。

LLM-guided Search则利用LLM的启发式评估能力指导传统搜索算法。在每一步搜索中,LLM评估候选节点的价值,帮助算法优先探索更有前景的分支[30]。

3.3.3 动态规划与重新规划

真实环境充满不确定性,Agent需要具备动态重新规划(Replanning)能力。当检测到计划执行偏差或环境变化时,Agent应快速调整策略。

重新规划的触发条件包括:

  • 行动执行失败(如API调用返回错误)
  • 环境状态变化(如目标对象位置改变)
  • 新信息获取(如发现更优解决方案)
  • 时间/资源约束变化

研究表明,具备重新规划能力的Agent在动态环境中的任务完成率比静态规划Agent高出45%[31]。

3.4 自我反思与持续改进

自我反思(Self-reflection)是高级智能体的标志性特征。通过审视自身行为和结果,Agent能够识别错误、总结经验、优化策略,实现持续改进。

3.4.1 Reflexion框架:语言化的强化学习

Reflexion框架创新性地将强化学习中的奖励信号转化为自然语言反思,无需更新模型参数即可实现行为改进[32]。其核心组件包括:

Actor:基于LLM的决策主体,生成行动和推理
Evaluator:评估Actor输出的质量,提供二元或标量反馈
Self-Reflection:根据反馈生成文本形式的反思,存储于记忆

Reflexion的工作流程为:Actor尝试任务 → Evaluator评估结果 → 若失败则生成反思 → Actor在下一次尝试中参考反思改进策略。实验表明,Reflexion在代码生成任务HumanEval上将GPT-4的pass@1从基准水平提升至91%[33]。

3.4.2 自我修正与迭代优化

Self-Refine技术通过迭代生成-批判-修订循环提升输出质量[34]。给定初始输出,模型首先进行自我批判,识别问题所在,然后基于批判意见生成改进版本。这一过程可重复多轮直至收敛。

形式化地,迭代优化可表示为:
x(k+1)=Refine(x(k),Critique(x(k)))x^{(k+1)} = \text{Refine}(x^{(k)}, \text{Critique}(x^{(k)}))x(k+1)=Refine(x(k),Critique(x(k)))

其中 x(k)x^{(k)}x(k) 是第 kkk 轮迭代的结果,Critique函数生成改进建议,Refine函数基于建议生成新版本。

3.4.3 经验积累与技能库构建

长期经验积累是实现终身学习的基础。技能库(Skill Library)机制将成功解决问题的经验封装为可复用模块[35]。每个技能条目包含:

  • 技能描述:自然语言说明适用场景
  • 实现代码:可执行的功能代码
  • 元数据:成功率、执行时间、依赖关系等

当遇到新任务时,Agent首先检索相关技能,在此基础上进行调整而非从零开始。Voyager项目的实验表明,技能库机制使Agent在Minecraft中的生存时间延长了3倍以上[36]。

4 多智能体系统:协作与涌现

4.1 多智能体系统的架构范式

多智能体系统(Multi-Agent Systems, MAS)由多个自主Agent组成,通过协作、竞争或协商解决单Agent难以应对的复杂问题。MAS的架构设计直接影响系统性能、可扩展性和鲁棒性[37]。

4.1.1 集中式vs分布式架构

集中式架构存在一个协调者(Orchestrator)Agent,负责任务分配、冲突仲裁和全局规划。这种架构的优势在于全局优化能力强、易于监控调试;劣势在于单点故障风险、可扩展性受限[38]。

分布式架构中各Agent地位平等,通过点对点通信协调行动。优势包括容错性强、扩展性好、隐私保护能力强;劣势在于全局一致性难以保证、协调开销较大。

混合架构结合了两者优点:高层采用集中式协调确保全局目标达成,底层采用分布式执行提升效率和鲁棒性。

混合架构

P2P

P2P

P2P

P2P

中央协调器

子群A

子群B

Agent 1

Agent 2

Agent 3

Agent 4

分布式架构

P2P

P2P

P2P

Agent A

Agent B

Agent C

集中式架构

协调者 Orchestrator

Agent A

Agent B

Agent C

4.1.2 通信协议与消息传递

Agent间通信是MAS协调的基础。通信协议设计需考虑:

通信拓扑:星型、网状、层级等结构各有适用场景
消息格式:结构化数据(JSON/XML)vs自然语言
通信模式:同步(请求-响应)vs异步(发布-订阅)
带宽限制:高频通信vs关键信息传递

研究表明,基于自然语言的Agent通信在灵活性上优于结构化协议,但带来了更高的解析开销和歧义风险[39]。

4.1.3 角色分配与专业化

角色分配(Role Assignment)是提升MAS效率的关键策略。不同Agent承担不同角色(如规划者、执行者、验证者),形成专业化分工[40]。

MetaGPT框架模拟软件公司组织架构,为不同Agent分配产品经理、架构师、工程师、测试员等角色,通过标准化流程协作完成软件开发任务。实验表明,这种角色专业化设计使代码生成质量显著提升[41]。

4.2 协作机制与集体智能

4.2.1 合作型多智能体系统

合作型MAS中,Agent共享共同目标,通过协作最大化集体效用。协作机制包括:

任务分解与分配:将复杂任务分解为子任务,分配给最适合的Agent执行。分配策略需考虑Agent能力、当前负载、通信成本等因素。

信息共享:Agent共享观测、推理和计划,形成集体态势感知。信息共享粒度需要在通信开销和协作效果间权衡。

冲突消解:当Agent行动冲突时,通过协商、仲裁或优先级机制解决。

4.2.2 竞争与博弈论视角

竞争型MAS中,Agent追求各自目标,可能存在利益冲突。博弈论为分析这类系统提供了数学框架[42]。

纳什均衡:在均衡状态下,任何Agent单方面改变策略都无法获得更高收益。MAS设计可引导系统趋向均衡状态。

拍卖机制:通过竞价分配稀缺资源,激励Agent真实报价。VCG机制在理论上能保证激励相容和社会福利最大化。

协商与讨价还价:Agent通过多轮报价-反报价达成共识。鲁宾斯坦讨价还价模型分析了时间折扣对协商结果的影响。

4.2.3 涌现行为与集体智慧

MAS常展现出单Agent不具备的涌现行为(Emergent Behaviors)。蚁群算法、粒子群优化等受自然启发的算法都是涌现计算的典型例子[43]。

在LLM-based MAS中,涌现现象包括:

  • 分工自发形成:无需显式编程,Agent自动发展出专业化
  • 知识互补整合:不同Agent的知识通过交互融合,形成更完整认知
  • 创新解决方案:Agent间的思维碰撞产生单Agent难以想到的创意

研究表明,多Agent辩论机制能显著提升事实准确性——当多个Agent就答案进行辩论时,最终结论的错误率比单Agent降低30%以上[44]。

4.3 代表性多智能体框架

4.3.1 AutoGPT与BabyAGI:早期探索

AutoGPT和BabyAGI是2023年初出现的早期自主Agent框架[45]。它们的核心创新在于:

目标驱动执行:用户设定高层目标,Agent自主规划并执行一系列行动
任务队列管理:维护待办任务列表,动态添加、删除、重排任务
记忆持久化:使用向量数据库存储长期记忆,支持跨会话经验积累

这些框架的局限性在于:容易陷入循环、缺乏有效错误恢复、对复杂任务规划能力不足。但它们开创了LLM-based自主Agent的先河,为后续研究奠定了基础。

4.3.2 CAMEL:角色扮演协作

CAMEL(Communicative Agents for Mind Exploration of Large Scale)框架引入角色扮演(Role-playing)机制促进Agent协作[46]。两个Agent分别扮演特定角色(如Python程序员和股票交易员),通过多轮对话协作完成任务。

角色扮演的优势在于:

  • 上下文丰富:角色设定提供了丰富的背景知识和行为准则
  • 目标对齐:共同任务目标驱动对话朝向问题解决
  • 涌现创意:角色间的互动常产生意想不到的解决方案

CAMEL项目还发布了大规模对话数据集,为研究多Agent交互提供了宝贵资源[47]。

4.3.3 MetaGPT:软件工程团队模拟

MetaGPT将软件开发流程形式化为多Agent协作过程[48]。系统包含以下角色:

角色 职责 输出物
产品经理 需求分析、功能定义 PRD文档
架构师 系统设计、技术选型 设计文档、API规范
项目经理 任务分解、进度管理 任务清单
工程师 代码实现、单元测试 源代码
测试员 测试用例设计、缺陷报告 测试报告

MetaGPT的创新在于标准化流程:各角色按照预定义的标准操作规程(SOP)协作,输出格式统一的文档。这种结构化方法显著提升了代码生成质量,在HumanEval基准上取得了优异成绩[49]。

MetaGPT工作流

PRD文档

设计文档

任务清单

源代码

测试报告

修复后代码

产品经理
Product Manager

架构师
Architect

项目经理
Project Manager

工程师
Engineer

测试员
QA Engineer

4.3.4 AutoGen:可定制对话编程

AutoGen是微软研究院推出的多Agent对话框架[50]。其核心设计原则包括:

可定制Agent:用户可自定义Agent的角色、能力、行为模式
对话编程:通过编排Agent间的对话流程实现复杂逻辑
人机协作:支持人类在关键节点介入,与Agent协同工作

AutoGen支持多种对话模式:一对一、多对多、层级对话、群聊等。框架还内置了代码执行、调试、检索等增强功能,适用于复杂软件开发任务[51]。

5 AI Agent的评估体系与基准测试

5.1 评估维度与指标体系

AI Agent的评估需要多维度指标体系,涵盖能力、效率、鲁棒性、安全性等多个方面[52]。

5.1.1 任务完成度评估

成功率(Success Rate)是最直接的评估指标,衡量Agent在给定任务上的成功比例。对于复杂任务,还需考虑:

子任务完成率:各子任务的成功情况,帮助定位薄弱环节
步骤效率:完成任务所需的平均步骤数,反映规划质量
时间效率:任务完成耗时,衡量响应速度

5.1.2 推理质量评估

推理质量评估关注Agent的思考过程:

推理链正确性:中间推理步骤是否符合逻辑
事实准确性:引用的事实是否正确无误
一致性:多次执行同一任务,推理过程是否一致

LLM-as-Judge方法使用另一个LLM评估推理质量。研究表明,经过适当校准的评判模型与人类评估的一致性可达85%以上[53]。

5.1.3 安全性与对齐评估

安全性评估确保Agent行为符合人类价值观:

有害内容生成:是否产生歧视、暴力、违法内容
隐私保护:是否泄露敏感信息
工具使用安全:是否执行危险操作(如删除数据、执行恶意代码)
对抗鲁棒性:面对恶意输入时的表现稳定性

AI_Agent评估体系

AI Agent评估

任务完成度

推理质量

安全性与对齐

效率指标

成功率

子任务完成率

步骤效率

推理链正确性

事实准确性

一致性

有害内容检测

隐私保护

对抗鲁棒性

响应时间

Token消耗

API调用次数

5.2 基准测试环境

5.2.1 WebArena:网页交互基准

WebArena是专为评估网页浏览Agent设计的交互式环境[54]。它包含多个真实网站的仿真版本(如购物网站、论坛、地图服务),Agent需要通过点击、输入、滚动等操作完成指定任务。

WebArena的任务类型包括:

  • 信息查询:在网站上查找特定信息
  • 商品购买:完成从搜索到结算的完整购物流程
  • 内容发布:在论坛或社交平台发布内容
  • 跨站操作:整合多个网站的信息完成复杂任务

当前领先模型在WebArena上的成功率约为57%,与人类水平(约90%)仍有显著差距[55]。

5.2.2 具身环境:Minecraft与机器人模拟

具身AI(Embodied AI)要求Agent在物理或物理仿真环境中行动。Minecraft因其开放世界特性成为热门测试平台[56]。

Minecraft任务类型

  • 生存模式:收集资源、制作工具、建造庇护所
  • 物品合成:按照配方合成指定物品
  • 导航任务:在复杂地形中找到目标位置

机器人模拟环境如AI2-THOR、Habitat提供逼真的室内场景,支持导航、物体操作、交互等任务[57]。

5.2.3 代码生成基准:HumanEval与SWE-bench

代码生成是AI Agent的重要应用场景。主流评估基准包括:

HumanEval:由OpenAI发布,包含164个编程问题,每个问题提供函数签名和测试用例,要求模型生成正确实现[58]。

SWE-bench:更具挑战性的基准,要求Agent解决真实GitHub仓库中的Issue。Agent需要理解代码库结构、定位问题、编写补丁并通过测试。当前最优方法的成功率约为12.5%[59]。

基准 任务类型 难度 当前最优
HumanEval 函数级编程 中等 92%+
MBPP 入门级编程 简单 80%+
SWE-bench 仓库级开发 困难 12.5%
DS-1000 数据科学 中等 60%+

5.3 评估方法论

5.3.1 自动评估vs人工评估

自动评估效率高、成本低、可重复,适合大规模基准测试。常用方法包括:

  • 规则匹配:检查输出是否包含预期内容
  • 单元测试:验证代码正确性
  • 语义相似度:使用嵌入模型评估文本质量

人工评估更贴近实际使用体验,能捕捉自动指标难以衡量的质量维度(如创意性、流畅度)。但成本高、主观性强、难以规模化。

混合评估策略结合两者优势:自动评估用于快速筛选和迭代,人工评估用于最终质量把关[60]。

5.3.2 LLM-as-Judge方法

LLM-as-Judge使用强大的语言模型(如GPT-4)作为评判者,评估其他模型的输出[61]。这种方法的优势在于:

一致性:相比人工评判,LLM评判标准更统一
可扩展性:可并行处理大量评估任务
细粒度:可设计详细的评估维度和评分标准

但LLM-as-Judge也存在局限:可能存在位置偏见、对长文本评估能力有限、评判标准可能与人类偏好存在偏差。研究表明,通过适当的提示工程和校准,LLM评判与人类评判的相关性可达0.8以上[62]。

5.3.3 对抗性评估与红队测试

对抗性评估通过刻意设计的困难案例测试Agent的极限能力。红队测试(Red Teaming)模拟攻击者视角,尝试诱导Agent产生有害输出[63]。

对抗性测试方法包括:

  • 提示注入:在输入中嵌入恶意指令
  • 越狱攻击:绕过安全限制诱导有害输出
  • 对抗样本:对输入进行微小扰动导致错误输出
  • 分布外测试:使用与训练分布差异大的测试数据

6 AI Agent的应用实践

6.1 软件开发与代码生成

AI Agent正在深刻改变软件开发范式。从代码补全到全自动编程,Agent的能力边界不断拓展[64]。

6.1.1 编程助手:从Copilot到Devin

GitHub Copilot:基于OpenAI Codex模型,提供实时代码补全建议。研究表明,使用Copilot的开发者任务完成速度提升55%[65]。

Devin:Cognition AI推出的全自主编程Agent,能够独立完成从需求分析到代码部署的完整流程。在SWE-bench基准上,Devin解决了13.86%的Issue,远超之前最优水平[66]。

6.1.2 自动化软件工程

自动化软件工程(Automated Software Engineering, ASE)追求更高程度的开发自动化:

需求工程:从自然语言描述提取功能需求、生成需求规格说明
架构设计:根据需求自动设计系统架构、选择技术栈
代码生成:生成可运行的源代码,包括前端、后端、数据库
测试生成:自动生成测试用例、执行测试、定位缺陷
运维部署:自动化部署、监控、故障恢复

研究表明,多Agent协作方法在复杂软件开发任务上表现优于单Agent,各Agent专注于特定阶段(设计、编码、测试)形成专业化分工[67]。

AI_Agent应用领域

AI Agent应用

软件开发

科学研究

商业自动化

具身智能

代码生成

自动化软件工程

代码审查

文献综述

实验设计

数据分析

智能客服

金融分析

内容创作

室内导航

物体操作

人机协作

6.1.3 代码审查与缺陷检测

AI Agent在代码质量保证中发挥重要作用:

静态分析:识别代码中的潜在缺陷、安全漏洞、风格问题
动态测试:生成测试输入、执行程序、分析运行时行为
补丁生成:为发现的缺陷自动生成修复代码

LLM-based代码审查工具能够理解代码语义,发现传统静态分析工具难以捕捉的逻辑错误。研究表明,GPT-4在缺陷检测任务上的准确率接近专业开发人员水平[68]。

6.2 科学研究与知识发现

AI Agent正在成为科学家的得力助手,加速知识发现过程[69]。

6.2.1 文献综述与知识整合

文献检索:Agent可自动检索相关文献、筛选高质量来源、提取关键信息
知识图谱构建:从文献中提取实体关系,构建结构化知识网络
综述生成:综合多篇文献,生成领域综述报告

6.2.2 实验设计与假设生成

假设生成:基于现有知识,提出可验证的科学假设
实验设计:规划验证假设所需的实验步骤、材料、设备
数据分析:处理实验数据、识别模式、验证假设

ChemCrow是一个化学领域的Agent系统,能够自主设计实验方案、预测反应产物、检索化学数据库。研究表明,ChemCrow在分子设计任务上的表现接近专业化学家水平[70]。

6.2.3 数据分析与可视化

数据清洗:识别并处理缺失值、异常值、重复数据
探索性分析:计算统计指标、生成可视化图表、发现数据模式
假设检验:执行统计检验、计算置信区间、评估效应大小
报告生成:自动生成数据分析报告,包含图表和解释

6.3 商业应用与自动化

6.3.1 客户服务与智能客服

智能客服是AI Agent最成熟的商业应用之一。现代智能客服Agent具备:

多轮对话:理解上下文,进行连贯的多轮交互
知识检索:从企业知识库检索准确答案
任务执行:帮助用户完成订单查询、退换货、预约等操作
情感识别:检测用户情绪,调整回应策略

研究表明,先进的智能客服系统可处理80%以上的常见咨询,客户满意度与人工客服相当[71]。

6.3.2 金融分析与投资决策

AI Agent在金融领域应用广泛:

市场分析:实时监控市场动态、分析新闻影响、生成研究报告
投资组合管理:根据风险偏好自动配置资产、再平衡组合
风险评估:评估投资风险、压力测试、情景分析
合规监控:检测异常交易、防范欺诈、确保合规

FinGPT等金融专用Agent框架整合了实时市场数据、金融分析工具和投资知识,为投资决策提供智能支持[72]。

6.3.3 内容创作与营销自动化

内容生成:自动生成文章、视频脚本、社交媒体帖子
个性化推荐:根据用户画像生成个性化营销内容
A/B测试:自动设计测试方案、分析结果、优化策略
舆情监控:追踪品牌声誉、分析用户反馈、预警危机

6.4 具身智能与机器人控制

6.4.1 室内导航与物体操作

具身Agent在物理环境中执行任务:

视觉导航:根据视觉输入在未知环境中找到目标位置
物体抓取:识别物体、规划抓取姿态、执行抓取动作
指令跟随:根据自然语言指令执行复杂任务(如"把桌上的书放到书架上")

6.4.2 人机协作与交互

自然语言交互:理解人类指令、询问澄清、汇报进展
行为预测:预测人类意图和行动,提前做好准备
安全协作:确保人机协作过程中的安全性

6.4.3 模拟到现实的迁移

模拟环境训练成本低、安全性高,但真实环境存在sim-to-real差距。迁移策略包括:

域随机化:在模拟中随机化环境参数,增强策略鲁棒性
适配层学习:学习模拟到真实的映射关系
少量真实数据微调:用少量真实数据调整模拟训练的策略

7 AI Agent的挑战与未来方向

7.1 技术挑战

7.1.1 幻觉问题与事实准确性

幻觉(Hallucination)指Agent生成看似合理但实际错误的内容。这是LLM-based Agent的核心挑战之一[73]。

幻觉类型包括:

  • 事实性幻觉:生成与事实不符的陈述
  • 忠实性幻觉:输出与输入或上下文不一致
  • 工具幻觉:调用不存在的工具或生成错误参数

缓解策略:

  • 检索增强生成(RAG):从外部知识库检索信息, grounding生成内容
  • 事实核查:使用专用工具验证关键事实
  • 自我反思:Agent主动质疑和验证自身输出
  • 多Agent验证:多个Agent交叉验证结果

7.1.2 长程规划与复杂任务处理

当前Agent在处理需要数十步以上长程规划的任务时仍显吃力[74]。挑战包括:

错误累积:多步推理中早期错误会级联放大
上下文限制:LLM上下文窗口有限,难以维护长期规划
目标漂移:长程执行中偏离原始目标

研究方向:

  • 层次化规划:高层抽象规划与低层具体执行分离
  • 外部记忆:使用笔记、待办列表等外部工具辅助规划
  • 子目标分解:将长程目标分解为可管理的里程碑

7.1.3 计算效率与成本优化

Agent的多步推理和工具调用带来显著计算开销[75]。优化策略包括:

模型蒸馏:使用小模型处理简单任务,大模型仅用于复杂推理
缓存机制:缓存常见查询结果,避免重复计算
早停策略:当置信度足够高时提前终止推理
异步执行:并行执行独立子任务,减少等待时间

解决方案

AI_Agent挑战与未来方向

AI Agent挑战

技术挑战

安全与对齐

未来方向

幻觉问题

长程规划困难

计算效率瓶颈

对抗攻击

价值对齐

可解释性

AGI路径

神经符号融合

人机协作新模式

RAG检索增强

层次化规划

模型蒸馏

RLHF对齐

宪法AI

可解释技术

7.2 安全与对齐挑战

7.2.1 对抗攻击与提示注入

Agent面临多种对抗攻击威胁[76]:

提示注入(Prompt Injection):攻击者在输入中嵌入恶意指令,劫持Agent行为
越狱攻击(Jailbreaking):诱导Agent绕过安全限制,生成有害内容
数据投毒:污染训练数据或知识库,植入后门
成员推断:从Agent输出推断训练数据中的敏感信息

防御措施:

  • 输入过滤:检测并拦截恶意输入
  • 输出监控:实时监控Agent输出,发现异常及时干预
  • 权限控制:限制Agent可执行的操作范围
  • 沙箱隔离:在隔离环境中执行Agent代码

7.2.2 价值对齐与伦理考量

确保Agent行为符合人类价值观是核心挑战[77]:

价值多元性:不同文化、个体的价值观存在差异
目标误设定:Agent可能找到非预期方式"优化"目标
权力集中:强大的Agent系统可能被少数人控制,加剧不平等

研究方向:

  • RLHF:通过人类反馈训练对齐的奖励模型
  • 宪法AI:让AI遵循预设的伦理原则
  • 可解释性:提升Agent决策透明度,便于监督
  • 分布式治理:多方参与Agent系统的设计和监管

7.2.3 可解释性与透明度

Agent的决策过程常被视为"黑箱",可解释性研究致力于打开这个黑箱[78]:

局部解释:解释单个决策的依据(如注意力可视化)
全局解释:理解模型的整体行为模式
反事实解释:展示改变输入如何影响输出
自然语言解释:让Agent用自然语言解释其推理过程

7.3 未来研究方向

7.3.1 通用人工智能(AGI)路径

AI Agent被视为通往AGI的重要路径[79]。关键研究方向:

多模态融合:无缝整合视觉、听觉、语言等多种模态
持续学习:在不遗忘旧知识的前提下学习新技能
元学习:学习如何学习,快速适应新任务
世界模型:构建对物理世界的内部模拟,支持想象和规划

7.3.2 神经符号融合

结合神经网络的模式识别能力和符号系统的推理能力[80]:

神经符号推理:用神经网络实现符号推理规则
可微编程:让传统程序可微分,融入端到端学习
知识图谱嵌入:将符号知识编码为神经网络可处理的向量

7.3.3 人机协作新模式

探索人类与AI Agent的最佳协作方式[81]:

混合智能:人类负责创意、价值判断,Agent负责执行、计算
交互式学习:Agent从人类实时反馈中学习
可纠正性:人类可随时介入纠正Agent行为
能力互补:发挥人类和AI各自优势,形成1+1>2的效果

早期探索 2022 Chain-of-Thought提出 思维链推理技术诞生 2023 ReAct框架发布 AutoGPT/BabyAGI出现 自主Agent概念兴起 技术成熟 2023 Toolformer/Gorilla发布 工具学习能力突破 2024 Multi-Agent框架涌现 MetaGPT/AutoGen/CAMEL 多智能体协作成为热点 应用爆发 2024 Devin编程Agent发布 全自动软件开发 2025 企业级Agent部署 金融/医疗/教育应用 Agent即服务(AaaS) 未来展望 2025+ AGI路径探索 神经符号融合 人机协作新模式 AI Agent技术发展历程与里程碑

8 结论

AI Agent作为人工智能领域的前沿方向,正经历着快速发展。从理论基础到技术实现,从单Agent到多Agent系统,从实验室到实际应用,这一领域展现出巨大的潜力和广阔的前景。

本文系统综述了AI Agent的核心技术范式,包括提示工程与推理增强、工具学习与函数调用、规划与任务分解、自我反思与持续改进等关键技术。我们深入分析了多智能体系统的架构设计、协作机制和代表性框架,探讨了评估体系与基准测试方法,并展示了AI Agent在软件开发、科学研究、商业应用等领域的实践成果。

同时,我们也正视AI Agent面临的挑战:幻觉问题、长程规划困难、计算效率瓶颈、安全对齐风险等。这些挑战既是当前研究的难点,也是未来突破的方向。随着大模型能力的持续提升、工具生态的日益完善、评估方法的不断优化,AI Agent有望在更多场景实现落地应用,逐步从辅助工具演变为真正的智能伙伴。

展望未来,AI Agent的发展将深刻影响社会生产方式和人类生活方式。在追求技术进步的同时,我们必须高度重视安全对齐、伦理规范和社会影响,确保这一强大技术造福全人类。AI Agent的研究不仅是技术探索,更是对人类智能本质的深入理解和思考。在这个人机协同的新时代,我们期待AI Agent与人类携手,共同开创更加智能、高效、美好的未来。


参考文献

[1] Wang L, Ma C, Feng X, et al. A survey on large language model based autonomous agents[J]. arXiv preprint arXiv:2308.11432, 2023.

[2] Wooldridge M, Jennings N R. Intelligent agents: Theory and practice[J]. The Knowledge Engineering Review, 1995, 10(2): 115-152.

[3] Xi Z, Chen W, Guo X, et al. The rise and potential of large language model based agents: A survey[J]. Science China Information Sciences, 2023, 66(8): 181201.

[4] OpenAI. GPT-4 technical report[J]. arXiv preprint arXiv:2303.08774, 2023.

[5] Yu Y, Yao Z, Li H, et al. Fincon: A synthesized llm multi-agent system with conceptual verbal reinforcement for enhanced financial decision making[C]//Advances in Neural Information Processing Systems. 2024.

[6] Qin Y, Liang S, Ye Y, et al. Toolllm: Facilitating large language models to master 16000+ real-world apis[J]. arXiv preprint arXiv:2307.16789, 2023.

[7] Zou H P, Huang W C, Wu Y, et al. A survey on large language model based human-agent systems[J]. arXiv preprint arXiv:2505.00753, 2025.

[8] Russell S, Norvig P. Artificial intelligence: a modern approach[M]. 4th ed. Pearson, 2020.

[9] Bratman M E. Intention, plans, and practical reason[M]. Harvard University Press, 1987.

[10] Zhou S, Xu H F, Zheng H, et al. Webarena: A realistic web environment for building autonomous agents[J]. arXiv preprint arXiv:2307.13854, 2023.

[11] Wei J, Wang X, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models[J]. Advances in Neural Information Processing Systems, 2022, 35: 24824-24837.

[12] Yao S, Zhao J, Yu D, et al. ReAct: Synergizing reasoning and acting in language models[J]. arXiv preprint arXiv:2210.03629, 2022.

[13] Schick T, Dwivedi-Yu J, Dessì R, et al. Toolformer: Language models can teach themselves to use tools[J]. Advances in Neural Information Processing Systems, 2023, 36: 68539-68551.

[14] Patil S G, Zhang T, Wang X, et al. Gorilla: Large language model connected with massive apis[J]. arXiv preprint arXiv:2305.15334, 2023.

[15] Zhong W, Guo L, Gao Q, et al. Memorybank: Enhancing large language models with long-term memory[J]. arXiv preprint arXiv:2305.10250, 2023.

[16] Lewis P, Perez E, Piktus A, et al. Retrieval-augmented generation for knowledge-intensive nlp tasks[J]. Advances in Neural Information Processing Systems, 2020, 33: 9459-9474.

[17] Wang G, Xie Y, Jiang Y, et al. Voyager: An open-ended embodied agent with large language models[J]. arXiv preprint arXiv:2305.16291, 2023.

[18] Wei J, Wang X, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models[J]. Advances in Neural Information Processing Systems, 2022, 35: 24824-24837.

[19] Kojima T, Gu S S, Reid M, et al. Large language models are zero-shot reasoners[J]. Advances in Neural Information Processing Systems, 2022, 35: 22199-22213.

[20] Yao S, Zhao J, Yu D, et al. ReAct: Synergizing reasoning and acting in language models[J]. arXiv preprint arXiv:2210.03629, 2022.

[21] Yao S, Yu D, Zhao J, et al. Tree of thoughts: Deliberate problem solving with large language models[J]. Advances in Neural Information Processing Systems, 2023, 36.

[22] Long J. Large language model guided tree-of-thought[J]. arXiv preprint arXiv:2305.08291, 2023.

[23] Schick T, Dwivedi-Yu J, Dessì R, et al. Toolformer: Language models can teach themselves to use tools[J]. Advances in Neural Information Processing Systems, 2023, 36: 68539-68551.

[24] Qin Y, Liang S, Ye Y, et al. Toolllm: Facilitating large language models to master 16000+ real-world apis[J]. arXiv preprint arXiv:2307.16789, 2023.

[25] Patil S G, Zhang T, Wang X, et al. Gorilla: Large language model connected with massive apis[J]. arXiv preprint arXiv:2305.15334, 2023.

[26] Tang X, Zheng A, Li J, et al. APIGen: Automated pipeline for generating verifiable and diverse function-calling datasets[J]. arXiv preprint arXiv:2406.18518, 2024.

[27] Shen Y, Song K, Tan X, et al. Hugginggpt: Solving ai tasks with chatgpt and its friends in hugging face[J]. Advances in Neural Information Processing Systems, 2023, 36.

[28] Liu B, Jiang Y, Zhang X, et al. Llm+p: Empowering large language models with optimal planning proficiency[J]. arXiv preprint arXiv:2304.11477, 2023.

[29] Ahn M, Brohan A, Brown N, et al. Do as i can, not as i say: Grounding language in robotic affordances[J]. arXiv preprint arXiv:2204.01691, 2022.

[30] Hao S, Gu Y, Ma H, et al. Reasoning with language model is planning with world model[J]. arXiv preprint arXiv:2305.14992, 2023.

[31] Zhang D, Chen L, Zhang S, et al. Mobile-env: An evaluation platform and benchmark for interactive agents in llm era[J]. arXiv preprint arXiv:2305.08144, 2023.

[32] Shinn N, Cassano F, Gopinath A, et al. Reflexion: Language agents with verbal reinforcement learning[J]. Advances in Neural Information Processing Systems, 2023, 36.

[33] Madaan A, Tandon N, Gupta P, et al. Self-refine: Iterative refinement with self-feedback[J]. Advances in Neural Information Processing Systems, 2023, 36.

[34] Madaan A, Tandon N, Gupta P, et al. Self-refine: Iterative refinement with self-feedback[J]. Advances in Neural Information Processing Systems, 2023, 36.

[35] Wang G, Xie Y, Jiang Y, et al. Voyager: An open-ended embodied agent with large language models[J]. arXiv preprint arXiv:2305.16291, 2023.

[36] Wang G, Xie Y, Jiang Y, et al. Voyager: An open-ended embodied agent with large language models[J]. arXiv preprint arXiv:2305.16291, 2023.

[37] Tran K T, Dao D, Nguyen M D, et al. Multi-agent collaboration mechanisms: A survey of llms[J]. arXiv preprint arXiv:2501.06322, 2025.

[38] Guo T, Chen X, Wang Y, et al. Large language model based multi-agents: A survey of progress and challenges[J]. arXiv preprint arXiv:2402.01680, 2024.

[39] Wu Q, Bansal G, Zhang J, et al. Autogen: Enabling next-gen llm applications via multi-agent conversation framework[J]. arXiv preprint arXiv:2308.08155, 2023.

[40] Li G, Hammoud H A A K, Itani H, et al. Camel: Communicative agents for" mind" exploration of large scale language model society[J]. Advances in Neural Information Processing Systems, 2023, 36.

[41] Hong S, Zheng X, Chen J, et al. Metagpt: Meta programming for multi-agent collaborative framework[J]. arXiv preprint arXiv:2308.00352, 2023.

[42] Dafoe A, Hughes E, Bachrach Y, et al. Open problems in cooperative ai[J]. arXiv preprint arXiv:2012.08630, 2020.

[43] Crandall J W, Oudah M, Tennom F, et al. Cooperating with machines[J]. Nature Communications, 2018, 9(1): 233.

[44] Liang T, He Z, Jiao W, et al. Encouraging divergent thinking in large language models through multi-agent debate[J]. arXiv preprint arXiv:2305.19118, 2023.

[45] Significant Gravitas. AutoGPT: An autonomous gpt-4 experiment[EB/OL]. https://github.com/Significant-Gravitas/AutoGPT, 2023.

[46] Li G, Hammoud H A A K, Itani H, et al. Camel: Communicative agents for" mind" exploration of large scale language model society[J]. Advances in Neural Information Processing Systems, 2023, 36.

[47] Li G, Hammoud H A A K, Itani H, et al. Camel: Communicative agents for" mind" exploration of large scale language model society[J]. Advances in Neural Information Processing Systems, 2023, 36.

[48] Hong S, Zheng X, Chen J, et al. Metagpt: Meta programming for multi-agent collaborative framework[J]. arXiv preprint arXiv:2308.00352, 2023.

[49] Hong S, Zheng X, Chen J, et al. Metagpt: Meta programming for multi-agent collaborative framework[J]. arXiv preprint arXiv:2308.00352, 2023.

[50] Wu Q, Bansal G, Zhang J, et al. Autogen: Enabling next-gen llm applications via multi-agent conversation framework[J]. arXiv preprint arXiv:2308.08155, 2023.

[51] Wu Q, Bansal G, Zhang J, et al. Autogen: Enabling next-gen llm applications via multi-agent conversation framework[J]. arXiv preprint arXiv:2308.08155, 2023.

[52] Wang L, Ma C, Feng X, et al. A survey on large language model based autonomous agents[J]. arXiv preprint arXiv:2308.11432, 2023.

[53] Zheng L, Chiang W L, Sheng Y, et al. Judging llm-as-a-judge with mt-bench and chatbot arena[J]. Advances in Neural Information Processing Systems, 2023, 36.

[54] Zhou S, Xu H F, Zheng H, et al. Webarena: A realistic web environment for building autonomous agents[J]. arXiv preprint arXiv:2307.13854, 2023.

[55] Zhou S, Xu H F, Zheng H, et al. Webarena: A realistic web environment for building autonomous agents[J]. arXiv preprint arXiv:2307.13854, 2023.

[56] Fan L, Wang G, Jiang Y, et al. Minecraft diamond miner: A challenge for embodied ai[J]. arXiv preprint arXiv:2307.06734, 2023.

[57] Kolve E, Mottaghi R, Han W, et al. Ai2-thor: An interactive 3d environment for visual ai[J]. arXiv preprint arXiv:1712.05474, 2017.

[58] Chen M, Tworek J, Jun H, et al. Evaluating large language models trained on code[J]. arXiv preprint arXiv:2107.03374, 2021.

[59] Jimenez C E, Yang J, Wettig A, et al. Swe-agent: Agent-computer interfaces enable automated software engineering[J]. arXiv preprint arXiv:2405.15793, 2024.

[60] Chang Y, Wang X, Wang J, et al. A survey on evaluation of large language models[J]. ACM Transactions on Intelligent Systems and Technology, 2023, 15(3): 1-45.

[61] Zheng L, Chiang W L, Sheng Y, et al. Judging llm-as-a-judge with mt-bench and chatbot arena[J]. Advances in Neural Information Processing Systems, 2023, 36.

[62] Zheng L, Chiang W L, Sheng Y, et al. Judging llm-as-a-judge with mt-bench and chatbot arena[J]. Advances in Neural Information Processing Systems, 2023, 36.

[63] Perez F, Ribeiro I. Ignore this title and hackaprompt: Exposing systemic vulnerabilities of llms through a global scale prompt hacking competition[J]. arXiv preprint arXiv:2311.16119, 2023.

[64] Yang J, Jimenez C E, Wettig A, et al. Swe-agent: Agent-computer interfaces enable automated software engineering[J]. Advances in Neural Information Processing Systems, 2024, 37.

[65] GitHub. The economic impact of ai-powered developer tools[EB/OL]. https://github.blog/2023-06-27-the-economic-impact-of-ai-powered-developer-tools/, 2023.

[66] Cognition AI. Devin: The first ai software engineer[EB/OL]. https://www.cognition.ai/, 2024.

[67] Hong S, Zheng X, Chen J, et al. Metagpt: Meta programming for multi-agent collaborative framework[J]. arXiv preprint arXiv:2308.00352, 2023.

[68] Li H, Hao Y, Zhai Y, et al. Assessing the capabilities of large language models in code review: A comprehensive study[J]. arXiv preprint arXiv:2405.13014, 2024.

[69] Boiko D A, MacKnight R, Gomes G. Emergent autonomous scientific research capabilities of large language models[J]. arXiv preprint arXiv:2304.05332, 2023.

[70] Bran A M, Cox S, White A D, et al. Chemcrow: Augmenting large-language models with chemistry tools[J]. arXiv preprint arXiv:2304.05376, 2023.

[71] Adamopoulou E, Moussiades L. Chatbots: History, technology, and applications[J]. Machine Learning with Applications, 2020, 2: 100006.

[72] Yang H, Liu X Y, Wang C D. Fingpt: Open-source financial large language models[J]. arXiv preprint arXiv:2306.06031, 2023.

[73] Ji Z, Lee N, Frieske R, et al. Survey of hallucination in natural language generation[J]. ACM Computing Surveys, 2023, 55(12): 1-38.

[74] Xie Y, Kawaguchi K, Zhao Y, et al. Self-evaluation as a defense against adversarial attacks on llms[J]. arXiv preprint arXiv:2312.12317, 2023.

[75] Zhang D, Chen L, Zhang S, et al. Mobile-env: An evaluation platform and benchmark for interactive agents in llm era[J]. arXiv preprint arXiv:2305.08144, 2023.

[76] Greshake K, Abdelnabi S, Mishra S, et al. Not what you’ve signed up for: Compromising real-world llm-integrated applications with indirect prompt injection[J]. ACM CCS, 2023.

[77] Hendrycks D, Carlini N, Schulman J, et al. Unsolved problems in ml safety[J]. arXiv preprint arXiv:2109.13916, 2021.

[78] Ribeiro M T, Singh S, Guestrin C. " why should i trust you?" explaining the predictions of any classifier[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016: 1135-1144.

[79] Morris M R, Sohl-dickstein J, Fiedel N, et al. Levels of agi: Operationalizing progress on the path to agi[J]. arXiv preprint arXiv:2311.02462, 2023.

[80] Garcez A d, Lamb L C. Neurosymbolic ai: The 3rd wave[J]. arXiv preprint arXiv:2012.05876, 2020.

[81] Amershi S, Weld D, Vorvoreanu M, et al. Guidelines for human-ai interaction[C]//Proceedings of the 2019 Chi Conference on Human Factors in Computing Systems. 2019: 1-13.

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐