注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

GPT多模态大模型与AI Agent智能体系列一百七十六

一文读懂 AI Agent!从 “自主决策” 到工具调用,揭秘未来AI智能体的核心原理

7.1 AI Agent智能体介绍和原理
在众多AI技术中,AI Agent智能体凭借其独特的定义、工作原理和核心技术,成为了引领未来科技的重要力量。接下来将详细介绍AI Agent智能体的概念、工作原理以及核心技术,帮助读者更好地理解这一前沿技术。
7.1.1 AI Agent的定义与角色
AI Agent,即人工智能代理,是一种高度智能化的实体,能够独立感知环境、理解和决策,进而执行相应的动作。这种智能体具备独立思考和调用工具的能力,能够逐步实现既定目标。与大模型的主要区别在于,大模型与人类的交互依赖于提示词,用户输入的提示词的清晰度和准确性直接影响到大模型的效果。而AI Agent只需设定一个目标,即可自主进行思考并完成目标任务。大模型的训练过程中涉及庞大的数据集,其中包括各种类型的数据和大量的人类行为数据。这使得大模型具备了模拟人类交互的能力,并且随着模型规模的扩大,大模型逐渐展现出上下文学习能力、思维链和推理能力等类似人类的思考方式。然而,大模型也存在一些问题,如幻觉和上下文限制等。因此,将大模型作为AI Agent的核心大脑,可以实现将复杂任务分解为可执行的子任务,从而构建出一个具备自主思考、决策和执行能力的智能体。AI Agent在多个领域中扮演着重要的角色,具体包括以下几个方面:
(1)自动化处理:AI Agent可以自动执行重复性高的任务,如数据收集、整理和分析,减少人工劳动,提高效率。
(2)数据分析:AI Agent能够处理和分析大量数据,发现其中的模式和趋势,为企业提供洞察力强的商业智能。
(3)决策支持:AI Agent可以根据历史数据和实时信息,辅助人类做出更好的决策,比如在金融交易、医疗诊断等领域。
(4)交互式服务:AI Agent可以提供交互式的客户服务,如在线聊天机器人,解答用户问题,提供个性化建议。
(5)监控和维护:AI Agent可以监控系统的运行状态,及时发现异常并进行维护,确保系统的稳定运行。
(6)教育和培训:AI Agent可以作为教育工具,提供个性化的学习体验,帮助学生掌握新知识和技能。
(7)娱乐和游戏:AI Agent在娱乐产业中也发挥着重要作用,如在游戏中创造智能对手,或在电影制作中生成逼真的特效。
(8)安全和防御:AI Agent可以应用于网络安全,检测和防御网络攻击,保护企业和个人信息安全。
(9)研究和开发:AI Agent在科学研究中也有重要用途,如协助科学家进行数据分析、模拟实验结果等。
(10)个人助理:AI Agent可以作为个人助理,管理日程、提醒事项、发送电子邮件等,提高个人的工作效率和生活质量。
总之,AI Agent的角色是根据其设计目标和应用场景来确定的,它们可以是单一功能的工具,也可以是多功能的服务提供者。
7.1.2 AI Agent技术原理
AI Agent是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能,AI Agent具备通过独立思考、调用工具去逐步完成给定目标的能力。AI Agent和大模型的区别在于,大模型与人类之间的交互是基于Prompt实现的,用户Prompt是否清晰明确会影响大模型回答的效果。而AI Agent的工作仅需给定一个目标,它就能够针对目标独立思考并做出行动。从技术原理上说,一个基于大模型的AI Agent系统可以拆分大模型、记忆(Memory)、任务规划(Planning)以及工具使用(Tool)的集合。在以大模型为基础的AI Agent系统中,大模型作为AI Agent系统的大脑负责计算,并需要其他组件进行辅助。前面章节已经深入讲解了大模型,接下来对任务规划、记忆、工具使用深入讲解。
1.任务规划
AI Agent的任务规划与执行是一个高度复杂的流程,尤其对于包含多个步骤的大型任务而言。在这种情况下,AI Agent能够利用大型模型的思维链能力来进行任务分解。具体来说,这些大型模型通过逐步提示的方式引导模型的思考过程,从而将一个庞大的任务拆解成更小、更易于管理的子目标。这样的处理方式不仅提高了处理效率,也使得复杂任务得以顺利完成。
此外,AI Agent还具备一种独特的自省机制,使其能够在完成任务后对自己的行为进行回顾和评估。这种自省的框架允许Agent对其过去的决策进行自我批评和反省,从中提取经验和教训,并对未来的行动计划进行分析和优化。通过这种方式,AI Agent不仅能够修正先前的错误决策,还能不断提高其任务规划和执行的智能化水平。这种持续的反思和细化过程有助于提升AI Agent的适应性和整体性能。
1)任务分解
任务分解是AI Agent在处理复杂任务时所采用的一种关键策略。其中,大模型思维链技术已成为提升模型在复杂任务表现中的标准提示方式。通过提示模型“一步一步思考”,可以利用更多的在线计算资源将难题分解为更小、更简单的步骤。思维链不仅可以将大任务转化为多个可管理的小任务,还可以揭示模型的思维过程。
思维树(Tree Of Thought,ToT)则是对思维链的一种扩展,它在每个步骤中探索多个可能的推理路径。ToT首先将问题分解为多个思维步骤,并为每个步骤生成多个思路,从而构建出一个树状结构。搜索过程可以是广度优先搜索(Breadth-First Search,BFS)或深度优先搜索(Depth-First-Search,DFS),每个状态的评估可以通过提示符或多数投票来实现。
广度优先搜索是一种图遍历算法,用于系统地遍历或搜索图(或树)中的所有节点。BFS的核心思想是从起始节点开始,首先访问其所有相邻节点,然后逐层向外扩展,逐一访问相邻节点的相邻节点,以此类推。这意味着BFS会优先探索距离起始节点最近的节点,然后再逐渐扩展到距离更远的节点。BFS通常用于查找最短路径、解决迷宫问题、检测图是否连通以及广泛的图问题。
深度优先搜索是一种基于图或搜索树的算法,从起始顶点开始选择某一路径深度试探查找目标顶点,当该路径上不存在目标顶点时,回溯到起始顶点继续选择另一条路径深度试探查找目标顶点,直到找到目标顶点或试探完所有顶点后回溯到起始顶点,完成搜索。由于DFS是以后进先出的方式遍历顶点,因此,可以使用栈(Stack)存储已经被搜索、相连顶点还未被搜索的顶点。
任务分解可以结合大模型和规划器,这种方法依赖于一个外部的规划器来进行长期规划。在此过程中,使用规划领域定义语言(Planning Domain Definition Language,PDDL)作为中间接口来描述规划问题。具体而言,大模型首先将问题转换为“问题PDDL”,然后请求经典规划器根据现有的“领域PDDL”生成PDDL计划,最后将PDDL计划转换回自然语言。本质上,规划步骤被外包给了一个外部工具,这通常需要特定领域的PDDL和合适的规划器,在一些机器人设置中较为常见,但在许多其他领域则不太常用。
2)自我反思
自我反思是一种至关重要的机制,它使自治体能够通过优化过去的行动决策并进行错误修正来持续改进。在实际任务中,尤其是那些需要不断尝试和犯错的场景下,自我反思的作用尤为显著。ReAct是一种创新的方法,它将推理和行动整合到大模型内部。通过将行动空间扩展为特定于任务的离散动作和语言空间的组合,ReAct 实现了这一目标。这使得大模型 能够与环境进行交互,例如使用Wikipedia搜索API,同时也能以自然语言生成推理的痕迹。
ReAct的提示模板巧妙地结合了明确的思考、行动和观察步骤,形成一个循环的过程:
思考:…
行动:…
观察:…
(重复多次)
在知识密集型任务(如HotpotQA、FEVER)和决策制定任务(如AlfWorld、WebShop)的实验中,与仅包含行动的基线相比,ReAct的表现更为出色。这一结果充分证明了自我反思在提高决策质量方面的重要性。
Reflexion是一个框架,旨在通过动态记忆和自我反思能力来增强智能体的推理技能。Reflexion采用了标准的强化学习设置,其中奖励模型提供简单的二进制奖励,而动作空间则遵循ReAct中的设计,将特定于任务的动作空间与语言相结合,以实现复杂的推理步骤。在每个动作之后,智能体会计算一个启发式函数,并根据自我反思的结果选择是否重置环境以开始新的试验。
启发式函数负责判断何时应该终止当前的轨迹,尤其是在轨迹效率低下或包含幻觉的情况下。效率低下的规划指的是花费过多时间却未能成功完成的轨迹,而幻觉则是指出现连续相同的动作序列,并在环境中产生相同的观察结果的情况。自我反思是通过向大模型展示两个示例来实现的,每个示例都包含了一对“失败的轨迹”和“用于指导未来计划变更的理想反思”。随后,这些反思会被添加到智能体的工作记忆中,最多可达三个,作为查询大模型的上下文。在AlfWorld环境和HotpotQA的实验中,幻觉被发现是AlfWorld中更常见的失败形式。这一发现表明,自我反思机制能够有效地检测和纠正大模型的缺陷。
2.记忆
在AI Agent的记忆体系中,短期记忆和长期记忆各自扮演着重要角色。
(1)短期记忆:AI Agent的所有输入都会被纳入短期记忆,这是模型进行上下文学习的基础。然而,短期记忆的容量受限于上下文窗口的长度,不同模型可能有不同的窗口限制。
(2)长期记忆:当AI Agent执行任务时,可能需要查询外部向量数据库,这部分信息便构成了长期记忆。长期记忆赋予了AI Agent长期保存和调用无限信息的能力。外部向量数据库支持快速检索,使得AI Agent能够高效地完成各种复杂任务,如阅读PDF文档、访问知识库等。
(3)向量数据库:这是一种将数据转化为向量进行存储的技术,它是长期记忆的重要组成部分,使得信息的存储和检索更加高效。
3.工具使用
工具使用是人类最显著的特征之一,也是人类区别于其他生物的重要标志。通过创造、修改和利用外部对象,能够完成远超人类身体和认知极限的任务。因此,为大型语言模型配备外部工具可以显著扩展其能力,使其能够更好地理解和应对各种复杂的问题和挑战。AI Agent强大之处在于其能够灵活运用各种工具来扩展其功能和能力。以下是一些工具应用:
(1)外部工具API:AI Agent可以利用外部工具API来获取超出大模型本身的能力和范围的信息。例如,它可以预订日程、设置待办事项、查询数据等。这种灵活的应用使得AI Agent能够更好地满足用户的多样化需求。
(2)插件及函数调用功能:类似于GPT等大型模型已经提供了插件和函数调用功能,使其能够调用插件或者函数来访问最新信息或特定数据源。然而,这种功能需要用户在提问问题时预先选择所需的插件或函数,无法实现自然的问答体验。相比之下,AI Agent可以自动调用工具,根据规划获取的每一步任务来判断是否需要调用外部工具来完成该任务,并将工具API接口返回的信息提供给大模型进行下一步任务处理。这种自动化和智能化的处理方式大大提高了AI Agent的效率和准确性。在实践中,ChatGPT插件和OpenAI API函数调用是两个很好的例子,它们展示了如何通过工具使用来增强大型语言模型的能力。这些工具API可以由其他开发人员提供(如插件),也可以使用函数调用方式自定义。
HuggingGPT是一个Agent框架,它使用ChatGPT作为任务规划器,根据HuggingFace平台上可用的模型描述来选择模型,并根据执行结果生成响应。这个系统包含四个阶段:
(1)任务规划:在这个阶段,大模型作为“思维大脑”,将用户的请求解析为多个任务。每个任务都有四个属性:任务类型、ID、依赖关系和参数。为了引导大型语言模型进行任务解析和规划,他们提供了一些示例。
(2) 模型选择:此阶段大模型将任务分配给专家模型,其中请求以多项选择题形式提出。大模型需要从模型列表中进行选择。由于上下文长度的限制,需要对任务类型进行过滤。
(3)任务执行:在这个阶段,专家模型针对特定任务执行并记录结果。
(4)响应生成:在这个阶段,大模型接收执行结果,并向用户提供汇总后的结果。
然而,将HuggingGPT应用于实际使用仍面临一些挑战:首先,需要提高效率,因为大模型的推理环节和与其他模型的交互都会拖慢流程;其次,它依赖于长上下文窗口来传达复杂的任务内容;最后,需要提高大模型输出和外部模型服务的稳定性。除了HuggingGPT框架,还有很多。接下来将详细讲解更多主流的大模型Agent框架,通过这些框架和技术,可以看到AI Agent在各个领域的广泛应用。

更多技术内容

更多技术内容可参见
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。

【配套视频】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏

实战驱动,掌握大模型开发全流程

智能涌现与 AGI 前瞻,抢占技术高地

上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐