智能体 Agent是什么
AI智能体(Agent)是当前热门概念,被视为实现通用人工智能(AGI)的关键路径。其核心框架包含感知、决策和行动三大模块:通过多模态输入获取信息,利用自然语言处理、存储和推理能力进行决策,最终通过文本输出、工具调用等方式执行任务。虽然概念源于上世纪90年代,但直到ChatGPT出现才真正焕发生机,得益于大模型在推理能力等方面的突破性进展。如今智能体已从基础对话机器人(L2)升级为具备高度自主性的
在当下的 AI 领域,“智能体(Agent)” 无疑是备受关注的热门概念。它并非全新产物,却在 ChatGPT 出现后重新焕发生机,被广泛视为通往通用人工智能(AGI)的关键路径。
一、智能体 Agent 的概念溯源
“智能体” 这一概念最早源于上世纪 90 年代的哲学领域,当时它指代人、动物,或是一些抽象的概念与实体。随着 AI 技术的发展,这一概念被引入 AI 领域,其含义也随之发生改变。在 AI 领域,智能体成为了一种计算实体,它能够通过传感器感知环境,自主决策,并借助执行器采取行动,核心目标便是模仿人类的行为方式。
从本质上来说,智能体是一种思想,是人类为了让大模型更好地解决问题而设计的手段。有了智能体,大模型在实际应用中能有条不紊地推理,规划解决问题的步骤,通过调用工具逐步解决问题,还能观察结果是否正确并及时纠错,就像拥有了 “智慧大脑”。
二、智能体 Agent 的核心框架
人类处理问题和任务时,会经历信息输入(感知)、信息处理(规划与决策)、信息输出(行动)三个基本过程。智能体的抽象框架也与之对应,包含感知、规划与决策、行动三个核心模块。在论文《The Rise and Potential of Large Language Model Based Agents: A Survey》中,有一张经典图片将 Agent 在处理问题时的思考过程分为感知(Perception)、大脑(Brain)和行动(Action)三部分,让我们能更清晰地理解其工作机制。
(一)感知(Perception)
就像人类拥有五感一样,大模型也能通过各种传感器获取输入信息,这被称为多模态输入,主要包括以下几种类型:
文本输入:这是我们最常见的方式,比如用文字和 ChatGPT 聊天,或者上传文件让 ChatGPT 分析内容。
视觉输入:例如将一张蒙娜丽莎的图片上传到 ChatGPT - 4,让它对图片内容进行说明。
语音输入:人们可以直接通过语音与大模型交流,大大提升了交互的便捷性。
其他输入:在物联网时代,各类传感器实现了设备互联,现在也能为大模型配置温湿度传感器等,赋予其更多样的感官能力。
(二)大脑(Brain)
如果大模型只有信息输入而不进行加工,那么输入的信息就毫无意义,这就像人类 “左耳进,右耳出” 的情况。在智能体框架中,“大脑” 的工作主要分为三个部分:
- 自然语言处理
多轮对话处理能力:大模型能够结合对话上下文,理解人类的对话意图,最终达成对话目标。当上下文对话过长时,可通过摘要(Summary)等方式对上文对话进行总结,从而节省 token。
语义理解与高质量文本生成:不同人提问的语种和方式各不相同,但大模型能够准确理解人类的提问,并给出相应的文本回复。 - 存储
框架中展示了记忆(Memory)和知识(Knowledge)两种存储形式。记忆有助于大模型更好地理解人类意图,进而更有效地处理问题。比如,当人类先询问 “北京的天气如何?”,得到回复后再问 “济南呢?”,若没有记忆,大模型无法参考历史对话,就不能理解 “济南呢?” 实际是在询问济南的天气;而有了记忆,就能准确领会意图。
记忆可分为长期记忆和短期记忆,长期记忆能将对话历史存储到 Redis 等数据库中,短期记忆则是在内存中存储的上下文对话。当记忆过长时,同样可通过摘要方法节省 Token,方便大模型参考。
除了记忆,知识也至关重要。由于大模型训练数据存在局限性,对于很多垂直领域的问题无法准确回答。因此,可通过 RAG(检索增强生成)的方式为大模型提供知识库,以此提高回答的准确度。
- 决策
决策是 Agent 获取信息输入并理解其含义后,思考应采取何种行为解决问题的过程,主要分为推理(Reasoning)和规划(Planning)两种类型。
推理:这是 Agent 解决复杂问题的关键。人类为大模型设计了思维链(COT)、Self - Consistency 等多种推理方法,这些方法主要基于演绎、归纳和溯因。
规划:Agent 在推理的基础上,会将复杂任务拆解成一个个小任务,并为每个小任务设计合适的完成方法,最终实现大任务的完成。在此过程中,Agent 还能观察每个小任务的完成情况并进行自我纠错。
(三)行动(Action)
行动是 Agent 在完成决策后,与外部环境交互时所要执行的动作,其形式多种多样:
文本输出:这是大模型最常规的能力,比如为人类提供文本回复。
工具调用:这是 Agent 最常见的用法,Function Calling(函数调用)就是典型的工具调用方式。
具身智能:当 Agent 与物理世界相结合,就产生了具身智能的概念,像餐饮行业的炒菜机器人、无人驾驶技术等都属于这一范畴。
三、智能体 Agent 的发展历程
上世纪 90 年代,人们就已经对智能体的理论框架有了基本了解。然而,当时深度学习尚未出现,移动互联网带来的大数据浪潮也未到来,智能体涉及的感知、推理能力及工具集都十分落后。所以,智能体在短暂火热后便陷入了沉寂。
直到 ChatGPT 的出现,智能体才被重新唤醒。OpenAI 提出的 AI 智能体模型与上世纪 90 年代的框架基本一致,但经过 30 多年的发展,AI 技术让智能体的各项能力有了大幅提升。尤其是在推理能力方面,如今大模型的水平相较于 90 年代的贝叶斯网络,差距如同博士生和 3 岁小孩。虽然智能体的 “外表” 没有改变,但其内在能力却实现了质的飞跃,就好比从木头升级成了太空铝。
四、智能体 Agent 在 AI 工具中的等级地位
我们可以通过一张等级表,更直观地了解智能体在 AI 工具中的地位。从表中能够清晰看到,不同等级的 AI 工具在自主性和任务处理能力上存在显著差异:
从等级表中不难看出,像 ChatGPT 这类对话机器人基本处于 L2 级别,而真正的智能体已能达到 L4 阶段,具备更强的自主性和复杂任务处理能力。
五、总结
智能体是具有感知环境、决策和执行能力的实体,通俗来讲,就是 “数字劳动力”“天选打工人”。自 OpenAI 重新唤醒智能体概念后,它在 AI 界的地位愈发重要,成为了通往通用人工智能的关键路径。随着 AI 技术的不断进步,相信未来智能体还会不断进化,在更多领域发挥重要作用,为我们的生活和工作带来更多便利与变革。
更多推荐
所有评论(0)