文章介绍了AI Agent的核心概念与工作流程,由大脑(LLM负责决策规划)、感知(多模态信息采集)和行动(执行交互)三大模块构成。AI Agent通过"感知-大脑处理-行动-反馈"的循环迭代流程,理解环境并采取行动完成任务。这种架构使智能体能处理复杂任务,实现与环境的智能交互,是构建大模型应用的基础框架。


第2章 AI Agent 核心概念

在了解了AI Agent的起源、发展历程及其定义后,我们再来看看AI Agent的核心概念,并基于核心概念梳理出智能体的核心流程。

2.1 核心概念

由米哈游联合复旦 NLP 组于2023年9月发布的论文《The Rise and Potential of Large Language Model Based Agents: A Survey》中,对智能体的现有研究成果进行了系统概括,提出了一个比较全面的通用概念框架,见如下图所示 :

image-20250218150706027

图1 基于大语言模型的智能体的概念框架,包含三个组成部分:大脑、感知和行动。

基于大语言模型的智能体的概念框架,由三个关键部分组成:大脑、感知和行动:

  • **大脑模块:**大脑模块作为控制中心,是智能体的核心,主要由LLM(大语言模型)构成。大脑模块不仅存储知识和记忆,还承担着信息处理和决策功能。通过分析、推理、规划过程生成下一步的行动方案,同时还具有泛化能力、能够很好地应对未见过的任务,展现出智能体的智能。
  • **感知模块:**使智能体可以感知外部环境的变化。需要将智能体的感知空间从纯文本领域扩展到包括文本、听觉和视觉模态等多模态领域,这种扩展使智能体能够更有效地理解和利用来自周围环境的信息。如通过文字输入、传感器、摄像头、麦克风等,建立起对外部世界或环境的感知。
  • **行动模块:**旨在扩展智能体行动空间。具体来说,赋予智能体使用工具技能及具身行动能力,能与外部环境或世界进行交互,使其能适应环境变化、提供反馈,甚至影响和塑造环境。

该框架可以根据不同的应用场景进行定制。一般来说,智能体按以下工作流程运行:首先,感知模块对应于人类的感官系统,如眼睛和耳朵,感知外部环境的变化,然后将多模态信息转换为智能体可理解的表示形式。随后,大脑模块作为控制中心,进行思考、决策等信息处理活动,存储经验知识和记忆,从记忆中提取有效信息以优化决策。最后,行动模块对应于人类的四肢,在工具的辅助下执行操作,并对周围环境产生影响。通过重复上述过程,智能体可以不断获得反馈并与环境进行交互。

上图中的例子来说明其工作流程:当一个人询问是否会下雨时,感知模块会将该指令转换为大语言模型能够理解的表征形式。然后,大脑模块开始根据当前的天气状况以及互联网上的天气预报(利用工具获取天气预报信息)进行推理。最后,行动模块做出回应,并将雨伞递给这个人。通过重复上述过程,智能体能够持续获得反馈并与环境进行交互。

2.1.1 大脑模块

大脑模块的运行机制:在接收到感知模块处理的信息后,大脑模块首先转向存储,检索知识,并从记忆中回忆。这些结果有助于智能体制定计划、进行推理并做出明智的决策。此外,大脑模块可能会以摘要、向量或其它数据结构的形式,保存智能体过去的观察、想法和行动。同时,它还可以更新常识和领域知识等,以供将来使用。基于大语言模型的智能体还可以凭借其固有的泛化和迁移能力,适应不熟悉的场景。

智能体的大脑模块主要以大语言模型来构建,核心包括以下几个部分:

  • **自然语言交互:**为了确保有效沟通,进行自然语言交互的能力至关重要,语言包含着丰富的信息。除了直观表达的内容之外,话语背后可能还隐藏着说话者的信念、愿望和意图。由于大语言模型(LLMs)所固有的强大自然语言理解和生成能力,智能体不仅能够熟练地用多种语言进行基本的交互式对话 ,还能展现出深入的理解能力,让人类能够轻松地与智能体进行理解和交互。
  • **知识:**在大规模数据集上训练的语言模型能够将广泛的知识编码到其参数中,可对各种类型的查询做出正确的响应。这些知识可以帮助基于大语言模型的智能体做出明智的决策。但存在些问题:
  • 模型在训练过程中获取的知识可能会过时,甚至从一开始就是错误的。一个简单的解决方法是重新训练。但这需要先进的数据、大量的时间和计算资源。更糟糕的是,这可能会导致灾难性遗忘 。
  • 大语言模型可能会生成与源信息或事实信息相冲突的内容 ,这种现象通常被称为 “幻觉”。这是大语言模型无法广泛应用于事实性要求严格的任务的关键原因之一。
  • 记忆:“记忆” 存储着智能体过去的观察、想法和行动序列。当面对复杂问题时,记忆机制有助于智能体有效地回顾和应用先前的策略。并使智能体能够借鉴过去的经验来适应不熟悉的环境。
  • 推理与规划:
  • 推理是人类智力活动的基础,是解决问题、决策以及批判性分析的基石。演绎、归纳和溯因推理是人们普遍认可的主要推理形式。对于智能体而言,推理能力如同人类一样,是解决复杂任务的关键。一些研究实验已被证明,通过引导大语言模型在输出答案前先生成推理依据,能够激发出其推理能力,如具有代表性的思维链(Chain-of-Thought,CoT),通过对LLM提示词中要求「think step by step」,LLM会把问题分解成多个步骤,一步一步思考,使得输出的结果更加准确。还有一些策略,如自一致性(self-consistency)、自优化(self-polish)、自精炼(self-refine)和选择推理(selection-inference)等,也被提出用于提升大语言模型的性能,后续章节会进行详细解析。

  • 规划是人类应对复杂挑战时的关键策略。对人类而言,规划有助于组织思路、设定目标,并制定达成这些目标的步骤。同样,规划能力对于智能体也至关重要,推理能力是规划模块的核心。通过推理,智能体将复杂任务分解为更易处理的子任务,并为子任务制定合适的行动序列计划。同时,随着任务的推进,智能体能够通过内省来调整计划,确保其与现实情况更好地契合,实现自适应且成功的达成目标。

    规划包含两个阶段:

  1. 计划制定:在计划制定过程中,智能体通常会将总体任务分解为多个子任务。
  2. 计划反思:制定好计划后,对其优点进行反思和评估至关重要。智能体利用内部反馈机制,从模型中获取见解,以优化其策略和规划方法。
  • 迁移和泛化能力: 智能不应局限于特定领域或任务,而应涵盖广泛的认知技能和能力,适应不同的领域和任务。该能力包括以下三个方面:
  • 未见任务泛化:研究表明,经过大规模语料库训练的语言模型无需进行特定任务的微调,就能展现出零样本泛化能力。具体而言,大语言模型能够根据自身理解,遵循指令完成在训练阶段未遇到的新任务。
  • 上下文学习:众多研究表明,大语言模型能够通过上下文学习(ICL)执行各种复杂任务。上下文学习是指模型从上下文中的少量示例中学习的能力。少样本上下文学习通过将原始输入与几个完整示例作为提示来丰富上下文,从而提高语言模型的预测性能。
  • 持续学习:大语言模型的规划能力在促进智能体持续学习方面的潜力。持续学习涉及技能的持续获取和更新,其核心挑战之一是灾难性遗忘,即模型在学习新任务时,往往会遗忘先前任务的知识。利用大语言模型的规划能力来结合现有技能,可以有效应对灾难性遗忘问题。
2.1.2 感知模块

人类和动物依靠眼睛、耳朵等感觉器官从周围环境收集信息。这些感知输入被转换为神经信号并发送到大脑进行处理,使得能够感知世界并与之互动。同样,对于基于智能体而言,通过感知模块将这些信息传递给大脑模块进行处理。接收各种来源和模态的信息至关重要,使智能体更好地理解环境、做出明智决策。

智能体的多模态感知能力,主要包括:

  • **文本输入:**基于LLM的智能体已经具备强大的语言生成和理解能力,具备通过自然语言与人类及其它智能体进行交流的基本能力。在文本输入中,除了明确表达的内容外,背后还隐藏着信念、欲望和意图。理解隐含意义对于智能体把握人类用户的潜在和内在意图至关重要,从而提高其与用户的沟通效率和质量。

  • **图像输入:**LLMs 本身并不具备视觉的感知能力,只能理解离散的文本内容;而图像输入通常包含有关世界的大量信息,包括物体的属性、空间关系、场景布局等智能体周围的信息。

    针对LLMs无法理解图像中的信息,常见的解决方法有:

  1. 图像字幕:为图像输入生成相应的文本描述,即图像字幕,从而被LLM理解。这种方式并且无需为字幕生成进行额外的训练,从而可以节省大量的计算资源,但字幕生成是一种低带宽方法,在转换过程中可能会丢失大量潜在信息。
  2. 图像编码器和大语言模型结合:研究尝试将图像编码器和大语言模型直接结合,使用 Transformer 对视觉信息进行编码,通过对齐视觉编码器和大语言模型,将图像编码转换为大语言模型能够理解的嵌入。以端到端的方式训练整个模型。这使智能体实现卓越的视觉感知能力,但需要大量的计算资源成本。
  • **视频输入:**视频输入由一系列连续的图像帧组成。因此,智能体用于感知图像的方法可能也适用于视频领域,与图像信息相比,视频信息增加了时间维度。因此,智能体需要对视频中不同帧之间时间关系进行理解。
  • **听觉输入:**当智能体具备听觉能力时,它可以提高对交互内容、周围环境的感知。有两种方法实现听觉能力:
  • 利用智能体的工具使用能力,智能体可以使用LLMs作为控制中心,调用现有的工具集或模型库来感知音频信息。例如,AudioGPT充分调用了FastSpeech(文本到语音)、GenerSpeech(风格转换)、Whisper(语音识别)等模型的功能。
  • 将感知方法从视觉领域迁移到音频领域,对于一段时间内的一段音频数据,可以将其抽象为有限长度的音频频谱图。采用类似于 ViT 的 Transformer 架构来处理音频频谱图图像。通过将音频频谱图划分为补丁,实现对音频信息的有效编码。将音频编码与其它模态的数据编码对齐,来训练整个模型。使得模型实现感知能力。
  • **其他输入:**引入现实世界的更多的输入,配备更丰富的感知模块。例如:触觉和嗅觉;感知周围环境的温度、湿度和亮度;眼球追踪、身体动作捕捉,3D 地图、甚至是脑机交互中的脑波信号。此外,还可以引入对更广阔的整体环境的感知:采用激光雷达、GPS、惯性测量单元等成熟的感知模块。
2.1.3 行动模块

人类感知环境后,大脑会对感知到的信息进行整合、分析和推理,然后做出决策。随后,人类利用神经系统控制身体,从而对环境做出适应性或创造性的反应,例如进行对话、躲避障碍或生火。在智能体的构建中,行动模块接收大脑模块发送的行动序列,并执行行动与环境进行交互。

智能体的行动能力包括以下几个方面:

  • **文本输出:**基于LLM的智能体固有的语言生成能力。它可以生成流畅性、相关性、多样性等方面表现出色的文本。
  • **工具使用:**工具扩展智能体的行动空间。智能体利用工具与外部环境交互,例如通过搜索工具查询网页信息,来获取即时资讯、调用SQL执行器来查询数据库获取专业知识、 利用Python 解释器来执行复杂数学计算任务等等。
  • **具身行动:**在追求通用人工智能(AGI)的过程中,具身智能体被视为一个关键范式,它致力于将模型智能与物理世界相结合。智能体的行为不再局限于纯文本输出或调用特定工具来执行特定领域任务。相反,它们应该能够主动感知、理解并与物理环境进行交互,基于语言模型丰富的内部知识做出决策并产生特定行为来改变环境。我们将这些统称为具身行动,它使智能体能够以与物理世界进行交互和理解。

2.2 核心流程

在对AI Agent的核心概念有了整体了解后,我们可以梳理出AI Agent大致的工作流程。如下图所示:

AI Agent的工作流程是:AI Agent通过感知模块观察环境收集环境信息(如文本、图片、视觉、3D 地图等多模块信息);将这些信息传递给大脑模块进行处理,大脑模块基于内部的世界知识、环境的状态及记忆进行思考、规划并决策,生成下一步的行动计划;最后执行具体行动,如调用工具与环境进行交互,行动结果会对环境产生新的影响。这个过程会迭代进行,直到完成目标。

AI Agent 的工作流程核心包括以下三个模块:

  • **感知(Perception):**指 AI Agent 观察周围环境,并从环境中收集信息,提取有用的数据。Agent 所收集的信息包括文本、听觉、视觉等多模态领域。为了使智能体更好地理解环境,能够接收多模态的信息是至关重要的。
  • **大脑(Planning/decision):**大脑模块核心是进行规划和决策,它根据感知模块收集的环境状态信息,结合内部的世界知识和记忆进行规划并做出决策,为达成目标任务生成下一步的行动计划。规划和决策通常由LLM(大语言模型)来承担,除此之外,还包括:
  • World Knowledge:具备丰富的世界知识,由大语言模型在训练中得到并固化在模型参数中。
  • State:当前环境的状态信息。
  • Memory:记忆保持了历史的思考决策过程及过去的行动计划。
  • Reflection:反思是根据当前的环境状态信息和历史行动结果进行总结,生成更高级别抽象的见解,作为经验信息,并存储在记忆中,以优化未来的决策,该功能使得AI Agent具有自我迭代学习能力,如:在错误中总结教训并在后续步骤中完善。
  • **行动(Action):**指 AI Agent 执行策略做出的具体行动,比如输出文本,使用搜索工具查询网页信息、调用API访问外部服务等等。行动会产生多样的结果,并影响环境状态。行动结果和环境状态的变化进一步被感知模块观察到,作为下一轮的输入。这个过程不断迭代,直到完成目标。

如果用一个公式来表达 AI Agent,可以表示为:

AI Agent = Perception(Observation)+ Brain(LLM+State+Memory+Reflection)+ Action(Tool)

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

如果你也想通过学大模型技术去帮助就业和转行,可以扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!

在这里插入图片描述

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

02.AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述
在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述
在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述

在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

在这里插入图片描述
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐