前言

在人工智能的语境里,“Agent”这个词几乎成了一个 buzzword。无论是自动驾驶、智能机器人,还是今天火热的 AI 辅助编程,大家都在谈 Agent。

但“Agent”究竟意味着什么?它为什么在今天被重新强调?姚顺雨(前 OpenAI 研究员)在多次访谈和文章中,对 Agent 做过系统性的思考。

我梳理他的核心观点,帮大家从更完整的脉络理解 Agent 的演变、现状和未来。

一、Agent 的定义:从工具到智能体

姚顺雨认为,Agent 并不是一个新概念,而是一个随时代不断变化的概念

  • 在自然语言处理的角度,Agent 是相对单纯“生成内容”的模型而言的。它不仅能写文章、对话,还能与外部世界交互,比如调用计算器、搜索互联网、操作电脑软件。
  • 在更广义的 AI 背景下,任何能自主决策、与环境交互并优化奖励的系统,都可以被称为 Agent。从 AlphaGo,到 Waymo 自动驾驶,再到今天的大语言模型驱动的工具,它们都符合这个定义。

因此,Agent 的含义依赖具体语境。在今天,讨论的核心是:如何基于大语言模型,构建能推理、能交互的智能体

二、核心区别:推理与泛化

特别强调,语言 Agent 与传统 Agent 的本质区别在于推理能力

举了个例子:人类面对一个新环境,比如走进黑暗房间,会基于常识推理出“先点灯以避免危险”。这种能力让人可以快速适应陌生场景。

而传统强化学习系统往往需要成百上千万次训练,才能学会同样的事。

推理 → 泛化:语言模型带来了强大的“先验知识”,使得智能体具备推理的基础。推理能力让 AI 能在不同环境之间迁移,真正实现泛化。

这也是为什么 ReAct 框架(Reason + Act)如此重要:它不仅生成行动,还在行动前进行思考。

三、Agent 的三次演变

姚顺雨把 Agent 的发展,分为三波浪潮:

  1. 符号主义 Agent(Good Old-Fashioned AI):基于规则和逻辑推理构建。比如“温度 > 30℃ → 开空调”。但这种方法很快遇到瓶颈:规则无法覆盖复杂世界,导致第一次 AI 寒冬。
  2. 神经网络 + 深度强化学习 Agent:代表是 AlphaGo、OpenAI Five 等。通过大量试错和奖励函数学习策略,在封闭环境(游戏、虚拟模拟)里表现出色。但问题是:无法泛化,围棋 Agent 学不会打游戏,虚拟环境成果难以迁移到现实世界。
  3. 语言模型驱动的 Agent:大语言模型提供了推理和常识的先验,使得 Agent 可以进入更多数字环境:编程、互联网、电脑操作。
    同时,任务本身也从“棋类游戏”走向“复杂数字环境”,更接近现实应用。

这三波浪潮,不仅是方法论的演进(规则 → 神经网络 → 语言模型),也是任务环境的演进:从符号环境,到虚拟环境,再到数字世界。

AI 五级能力分层(L1–L5)的:

  • L1:Chatbot(聊天机器人) —— 基于语言先验。
  • L2:Reasoner(推理者) —— 在语言基础上具备推理能力。
  • L3:Agent(智能体) —— 推理 + 与环境交互,能够泛化。
  • L4:Innovator(创新者)
  • L5:Organizer(组织者)

Agent 必须建立在 Chatbot 与 Reasoner 之上。而未来的发展方向,一是让 Agent 拥有自主奖励机制,二是形成 Multi-Agent 协作组织。

4、任务设定:从“上半场”到“下半场”

在博文《The Second Half》中,姚顺雨提出:AI 的瓶颈已经从“方法设计”转向“任务定义”

早期我们关注的是“怎么造武器”(算法、模型);但当我们拥有了大语言模型这一“通用武器”后,更重要的是思考“朝哪里开枪”(任务设定)。

任务设计的关键:

  1. 结果导向而非过程导向: 数学、编程任务的成功,取决于结果是否正确,而不是过程多么优美。
  2. 奖励要白盒、可计算: 最好基于规则,而非人类偏好,否则容易被“投机取巧”。

SWE-bench、SWE-Agent 等工作,就是通过构建清晰、白盒的 reward,使得 AI 能够在真实软件工程环境中不断迭代学习。

六、Agent任务的难度与划分

不同任务的挑战维度是正交的:

  • 可靠性导向:如客服,需要 99% 以上的稳定性。
  • 创造力导向:如科研、写作,允许大量失败,只要偶尔成功即可。
  • 时间跨度:短循环任务(修改一行代码) vs. 长循环任务(构建操作系统)。
  • 广度:窄任务(修复 bug) vs. 宽任务(从 0 搭建大型系统)。

因此,人类觉得难的任务,不一定对 Agent 难

比如客服对人来说门槛低,但对 AI 来说,需要极高鲁棒性,反而更难。

七、Code:Agent 的“手”

姚顺雨有个有趣的比喻:人类最重要的 affordance 是“手”,而 AI 最重要的 affordance 可能是 “代码”。

代码天然是机器能理解和操作的语言。不同于网页、视频这种“为人设计”的信息形式,代码是为机器设计的表达形式。这使得 Code 成为 Agent 进入真实世界的最佳入口。

从 SWE-bench 到 Coding Agent,再到更广泛的 API 调用、GUI 操作,姚顺雨认为:未来的 AGI,很可能是 API + GUI 的混合体,最终能适配各种环境。

八、语言与泛化

为什么语言是关键?:

  • 语言是人类为实现泛化而发明的工具。
  • 学会攀岩,并不能帮助你解决写作问题;但掌握语言,你能通过交流、推理,学习各种新技能。
  • 大语言模型正是继承了语言这一“泛化工具”,才使得 RL 终于具备了跨领域迁移的可能。

这也是为什么我们今天看到:在数学、编程上通过 RL 训练过的模型,在创意写作上也表现更好。这不是单纯的数据记忆,而是泛化能力的显现。

九、Agent的总结

姚顺雨关于 Agent 的理解,可以归纳为三个核心点:

  1. Agent 的本质:具备自我决策、能与环境交互,并以优化奖励为目标的系统。
  2. 核心突破:推理能力让 Agent 能够泛化,而大语言模型提供了推理的先验。
  3. 未来方向
  • 任务设定比模型设计更重要;
  • Code 是 AI 的“手”,是通往真实世界的关键;
  • Agent 的发展路径,是从单一推理者,走向多智能体协作和自主奖励。

今天的 Agent,不仅是一个技术框架,更是通向通用人工智能(AGI)的必经之路


任务场景的Agent,Injob AI 模拟面试:「AI面试官」 VS「 AI 求职者」、探索面试最优解

它的核心模式很简单:

AI⾯试官:扮演⼤⼚⾯试官,内置真实的大厂岗位考核数据。它从五个维度对你进行综合考察

AI求职者:扮演“你”。导入你的真实简历,让这个AI成为你的“数字分身”,用它来和AI面试官过招。

看两个AI讨论,是世界上最有效的面试课。 你不再是参与者,而是站在上帝视角的观察者和学习者,学习如何解析问题、结构化解构回答。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐