收藏必备!大模型智能体(Agent)工作原理与架构全解析:从PEAS模型到ReAct实战
本文系统介绍大模型驱动的智能体(Agent)工作原理与架构。从PEAS模型和Agent Loop循环机制入手,对比智能体与传统工作流的本质区别,详解温度参数、Top-k与Top-p采样等性能调优技术,重点解析ReAct、Plan-and-Solve和Reflection三种核心架构,展示LLM如何通过"感知-思考-行动-观察"循环进化为能解决问题的智能伙伴。
本文系统介绍大模型驱动的智能体(Agent)工作原理与架构。从PEAS模型和Agent Loop循环机制入手,对比智能体与传统工作流的本质区别,详解温度参数、Top-k与Top-p采样等性能调优技术,重点解析ReAct、Plan-and-Solve和Reflection三种核心架构,展示LLM如何通过"感知-思考-行动-观察"循环进化为能解决问题的智能伙伴。
在人工智能的浪潮中,我们经常听到“大模型(LLM)”和“智能体(Agent)”这两个词。如果说大模型是一个智商超群的思想者,那么智能体就是一个手脚灵便、能听懂指令并把活儿干完的执行者。
一个智能体究竟是如何构成的?它又是如何在复杂多变的现实环境中,像人类一样“感知-思考-行动”的?
1. 智能体基础:理解Agent的工作原理
1.1 任务环境分析:PEAS模型
想要理解智能体的运作,必须先了解任务环境。在人工智能领域,通常用PEAS模型来描述一个任务环境,即:
-
性能度量(Performance):评估智能体成功与否的标准
-
环境(Environment):智能体运作的场景与条件
-
执行器(Actuators):智能体影响环境的方式
-
传感器(Sensors):智能体获取环境信息的渠道
维度 智能旅行助手的核心规约 P (Performance 性能度量) 它干得好不好?看是否省钱、省时、用户是否满意。 E (Environment 环境) 它在哪运行?航司票务系统、酒店API、用户的日历。 A (Actuators 执行器) 它能做什么?屏幕显示建议、发送预订请求。 S (Sensors 传感器) 它能看到什么?用户的语音输入、API返回的余票数据。 
1.2 智能体循环:智能体的心脏—Agent Loop
智能体通过一个持续的循环与环境进行交互,这个核心机制被称为智能体循环(Agent Loop)。在这个循环中,智能体接收环境信息,进行内部推理,然后执行动作,再观察结果,如此反复,直到达成目标。

1.3 提示工程:驱动LLM的关键
驱动真实LLM(大型语言模型简称:LLM,英文:Large Language Model)的关键在于提示工程(Prompt Engineering)。我们需要设计一个"指令模板",告诉LLM它应该扮演什么角色、拥有哪些工具、以及如何格式化它的思考和行动。这是智能体的"说明书",将作为system_prompt传递给LLM。
提示工程是一种用于控制语言模型输出的技术。
涉及仔细设计输入或“提示”来引导模型的响应。目标是生成特定类型的输出,或将模型引导至特定主题或风格的响应。
尽管 LLM 可以生成令人印象深刻且类似人类的文本,但本质上只是模式匹配机器。不像人类那样理解所生成的内容。因此,提示的措辞对输出有着显著的影响。
例如,一个旅行助手智能体的系统提示可能是:
AGENT_SYSTEM_PROMPT = """你是一个智能旅行助手。你的任务是分析用户的请求,并使用可用工具一步步地解决问题。 # 可用工具: - `get_weather(city: str)`: 查询指定城市的实时天气。 - `get_attraction(city: str, weather: str)`: 根据城市和天气搜索推荐的旅游景点。 # 行动格式: 你的回答必须严格遵循以下格式。首先是你的思考过程,然后是你要执行的具体行动。 Thought: [这里是你的思考过程和下一步计划] Action: [这里是你要调用的工具,格式为 function_name(arg_name="arg_value")] # 任务完成: 当你收集到足够的信息,能够回答用户的最终问题时,你必须在`Action:`字段后使用 `finish(answer="...")` 来输出最终答案。 请开始吧!"""
感知 (Perception): 这是起点。智能体通过“传感器”(比如 API 监听器)接收信息。这不仅包括用户的“帮我订票”指令,还包括上一步操作后的反馈(比如“订票失败,余额不足”)。
思考 (Thought): 这是大模型的主场。LLM 拿到感知到的信息,开始推理:
- 规划 (Planning):把“去旅行”拆解为“查天气”、“订机票”、“订酒店”等子任务。
- 工具选择 (Tool Selection):现在的子任务是“查天气”,那我就从工具箱里选
get_weather这个工具。
行动 (Action): 决策完毕,智能体通过“执行器”挥动双手——真正地调用代码、发送网络请求,试图去改变环境的状态。
观察 (Observation): 行动之后,环境会给出一个反馈(新的观察)。这个反馈再次进入感知系统,开启下一轮循环。
2. 智能体 vs 传统工作流:本质区别
2.1 工作流(Workflow)模式
工作流是一种传统的自动化范式,核心是对一系列任务或步骤进行预先定义的、结构化的编排。本质上是一个精确的、静态的流程图,规定了在何种条件下、以何种顺序执行哪些操作。
2.2 智能体(Agent)模式
基于大语言模型的智能体是一个具备自主性的、以目标为导向的系统。不仅仅执行预设指令,而是能够在一定程度上理解环境、进行推理、制定计划,并动态地采取行动以达成最终目标。LLM在其中扮演着"大脑"的角色。这种基于实时信息进行动态推理和决策的能力,正是Agent的核心价值所在。

3. 模型参数调优:提升Agent性能的关键
3.1 温度(Temperature)参数
Temperature这类的可配置参数,其本质是通过调整模型对"概率分布"的采样策略,让输出匹配具体场景需求,配置合适的参数可以提升Agent在特定场景的性能。
温度参数是模型参数调优中的核心控制项,主要用于调节生成文本的随机性和创造性
核心作用:
(1)控制随机性与创造性
- 低温(0.2-0.5):输出更确定,选择概率最高的词,适合事实性任务(如代码生成、法律合同)。
- 中温(0.5-0.8):平衡创造性与准确性,适用于技术文档、学术论文
- 高温(0.8-2.0):鼓励创新和多样性,适合创意写作、头脑风暴。
(2)数学原理:
通过调整Softmax函数的温度参数T,改变概率分布的尖锐度**。**
公式为:

T值越大,分布越平滑;T值越小,分布越尖锐。
应用场景:
- 事实性场景:医疗诊断、财务报告、代码生成,需高度准确性和连贯性。
- 平衡场景:学术论文、用户指南,需兼顾准确性与可读性。
- 创意场景:诗歌创作、广告文案、品牌故事,需多样性和创新性。
3.2 Top-k与Top-p采样
-
Top-k:将所有token按概率从高到低排序,取排名前k个的token组成"候选集",随后对筛选出的k个token的概率进行"归一化"
-
Top-p:将所有token按概率从高到低排序,从排序后的第一个token开始,逐步累加概率,直到累积和首次达到或超过阈值p。
在人工智能领域,尤其是自然语言处理(NLP)和大语言模型相关场景中,“token”(标记)是一个非常重要的概念。
基本定义:
Token是文本处理中的基本单位。在对文本进行处理时,不能直接将原始的文本字符序列输入到模型中,而是需要将文本分割成一个个较小的单元,这些单元就是Token。这个将文本分割成Token的过程被称为分词(Tokenization) 。
Token的表现形式单词:
最直观的Token划分方式就是将每个单词作为一个Token。例如,对于句子 “I love natural language processing”,按照单词进行分词后,每个单词 “I”、“love”、“natural”、“language”、“processing” 都是一个Token。
子词:
在很多情况下,将单词作为Token可能会导致词表过大,并且无法处理未登录词(在训练数据中未出现过的词)。因此,现在很多系统采用子词(Sub - word)作为Token。例如,“unhappiness” 可能会被拆分为 “un”、“happy” 和 “ness” 这几个子词作为Token。
字符:
在某些特殊场景下,也可以将每个字符作为一个Token。比如在处理一些代码、密码等文本时,按字符划分Token可能更合适。
Token在模型中的作用输入表示:
Token是模型接收文本输入的基本形式。文本数据经过分词得到Token序列后,每个Token会被映射为一个向量(通过词嵌入等技术),这些向量作为模型的输入,让模型能够理解和处理文本信息。
计算和处理:
模型在处理文本时,是以Token为单位进行计算的。例如,在Transformer架构的模型中,注意力机制会对输入的Token序列进行处理,学习Token之间的关系和上下文信息。
输出结果:
模型生成文本时,也是以Token为单位输出的。模型会预测下一个可能出现的Token,将这些Token依次组合起来就形成了最终的输出文本。
3.3 参数协同工作机制
在文本生成中,当同时设置Top-p、Top-k和温度系数时,这些参数会按照分层过滤的方式协同工作,其优先级顺序为:温度调整→Top-k→Top-p。温度调整整体分布的陡峭程度,Top-k会先保留概率最高的k个候选,然后Top-p会从Top-k的结果中选取累积概率≥p的最小集合作为最终的候选集。
4. 核心智能体架构与实现
4.1 ReAct智能体
ReAct是一种将推理(Reasoning)与行动(Action)相结合的智能体架构。
核心思想:
让智能体在思考过程中明确表达推理步骤,基于推理选择适当的行动,再根据行动结果更新认知,形成一个持续的循环。

# ReAct提示词模板REACT_PROMPT_TEMPLATE = """请注意,你是一个有能力调用外部工具的智能助手。 可用工具如下: {tools} 请严格按照以下格式进行回应: Thought: 你的思考过程,用于分析问题、拆解任务和规划下一步行动。 Action: 你决定采取的行动,必须是以下格式之一: - `{tool_name}[{tool_input}]`:调用一个可用工具。 - `Finish[最终答案]`:当你认为已经获得最终答案时。 - 当你收集到足够的信息,能够回答用户的最终问题时,你必须在Action:字段后使用 finish(answer="...") 来输出最终答案。 现在,请开始解决以下问题:Question: {question} History: {history} """
正是通过这种 Thought -> Action -> Observation 的严谨循环,智能体将 LLM 强大的语言推理能力,与外部世界的真实工具完美拼接,从一个“只会说话的机器”,进化成了“能解决问题的伙伴”。
这个过程形成了一个强大的协同效应:推理使得行动更具目的性,而行动则为推理提供了事实依据。
让我们再举一个例子:
一个成熟的智能体,它的每一次输出通常包含两个关键字段:
1. Thought (思考)
这是决策的快照。智能体用自然语言解释当下的局势。
例如:
“用户想知道北京的天气。我无法直接回答,我需要调用外部工具来获取实时数据。”
2. Action (行动)
这是给机器看的具体操作,通常是函数调用。
get_weather("北京")
当这一套组合拳打出去后,外部的解析器会执行函数,并将结果(比如一串复杂的 JSON 数据)翻译成智能体能听懂的人话,也就是 Observation。
让我们再看一段智能体在后台的真实“思考录”:
// 第一轮循环Thought: 用户问北京天气,我得查查。Action: get_weather("北京")// 环境执行代码,返回数据,形成观察Observation: 北京当前晴,25摄氏度,微风。// 第二轮循环Thought: 我已经拿到天气数据了,现在可以回答用户了。Action: response("北京现在是晴天,气温25度,很舒服哦!")
4.2 Plan-and-Solve智能体

Plan-and-Solve将整个流程解耦为两个核心阶段:
- 规划阶段(Planning Phase):首先,智能体会接收用户的完整问题。它的第一个任务不是直接去解决问题或调用工具,而是将问题分解,并制定出一个清晰、分步骤的行动计划。
- 执行阶段(Solving Phase):在获得完整的计划后,智能体进入执行阶段。严格按照计划中的步骤,逐一执行。每一步的执行都可能是一次独立的LLM调用,或者是对上一步结果的加工处理,直到计划中的所有步骤都完成,最终得出答案。
# 规划器提示词模板PLANNER_PROMPT_TEMPLATE = """你是一个顶级的AI规划专家。你的任务是将用户提出的复杂问题分解成一个由多个简单步骤组成的行动计划。 请确保计划中的每个步骤都是一个独立的、可执行的子任务,并且严格按照逻辑顺序排列。 你的输出必须是一个Python列表,其中每个元素都是一个描述子任务的字符串。 问题: {question} 请严格按照以下格式输出你的计划,`python与`作为前后缀是必要的: `python ["步骤1", "步骤2", "步骤3", ...] ` """# 执行器提示词模板EXECUTOR_PROMPT_TEMPLATE = """你是一位顶级的AI执行专家。你的任务是严格按照给定的计划,一步步地解决问题。 你将收到原始问题、完整的计划、以及到目前为止已经完成的步骤和结果。 请你专注于解决"当前步骤",并仅输出该步骤的最终答案,不要输出任何额外的解释或对话。 # 原始问题: {question} # 完整计划: {plan} # 历史步骤与结果: {history} # 当前步骤: {current_step} 请仅输出针对"当前步骤"的回答: """
4.3 Reflection智能体
Reflection核心思想:
为智能体引入一种事后(post-hoc)的自我校正循环,使其能够像人类一样,审视自己的工作,发现不足,并进行迭代优化。为智能体提供了一个内部纠错回路,使其不再完全依赖于外部工具的反馈(ReAct的Observation),从而能够修正更高层次的逻辑和策略错误。

Reflection机制的优势:
- 将一次性的任务执行转变为持续优化的过程,显著提升复杂任务的最终成功率和答案质量;
- 支持多模态反思,可以反思和修正文本以外的输出(如代码、图像等);
# 初始执行提示词INITIAL_PROMPT_TEMPLATE = """你是一位资深的Python程序员。请根据以下要求,编写一个Python函数。 你的代码必须包含完整的函数签名、文档字符串,并遵循PEP 8编码规范。 要求: {task} 请直接输出代码,不要包含任何额外的解释。 """# 反思提示词REFLECT_PROMPT_TEMPLATE = """你是一位极其严格的代码评审专家和资深算法工程师,对代码的性能有极致的要求。 你的任务是审查以下Python代码,并专注于找出其在<strong>算法效率</strong>上的主要瓶颈。 # 原始任务: {task}# 待审查的代码: `python {code} `请分析该代码的时间复杂度,并思考是否存在一种<strong>算法上更优</strong>的解决方案来显著提升性能。 如果存在,请清晰地指出当前算法的不足,并提出具体的、可行的改进算法建议(例如,使用筛法替代试除法)。 如果代码在算法层面已经达到最优,才能回答"无需改进"。 请直接输出你的反馈,不要包含任何额外的解释。 """# 优化提示词REFINE_PROMPT_TEMPLATE = """你是一位资深的Python程序员。你正在根据一位代码评审专家的反馈来优化你的代码。 # 原始任务: {task} # 你上一轮尝试的代码: ` {last_code_attempt} `评审员的反馈: {feedback} 请根据评审员的反馈,生成一个优化后的新版本代码。 你的代码必须包含完整的函数签名、文档字符串,并遵循PEP 8编码规范。 请直接输出优化后的代码,不要包含任何额外的解释。 """
随着大模型的持续火爆,各行各业纷纷开始探索和搭建属于自己的私有化大模型,这无疑将催生大量对大模型人才的需求,也带来了前所未有的就业机遇。**正如雷军所说:“站在风口,猪都能飞起来。”**如今,大模型正成为科技领域的核心风口,是一个极具潜力的发展机会。能否抓住这个风口,将决定你是否能在未来竞争中占据先机。
那么,我们该如何学习大模型呢?
人工智能技术的迅猛发展,大模型已经成为推动行业变革的核心力量。然而,面对复杂的模型结构、庞大的参数量以及多样的应用场景,许多学习者常常感到无从下手。作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。
为此,我们整理了一份全面的大模型学习路线,帮助大家快速梳理知识,形成自己的体系。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
一、大模型全套的学习路线
大型预训练模型(如GPT-3、BERT、XLNet等)已经成为当今科技领域的一大热点。这些模型凭借其强大的语言理解和生成能力,正在改变我们对人工智能的认识。为了跟上这一趋势,越来越多的人开始学习大模型,希望能在这一领域找到属于自己的机会。
L1级别:启航篇 | 极速破界AI新时代
- AI大模型的前世今生:了解AI大模型的发展历程。
- 如何让大模型2C能力分析:探讨大模型在消费者市场的应用。
- 行业案例综合分析:分析不同行业的实际应用案例。
- 大模型核心原理:深入理解大模型的核心技术和工作原理。

L2阶段:攻坚篇 | RAG开发实战工坊
- RAG架构标准全流程:掌握RAG架构的开发流程。
- RAG商业落地案例分析:研究RAG技术在商业领域的成功案例。
- RAG商业模式规划:制定RAG技术的商业化和市场策略。
- 多模式RAG实践:进行多种模式的RAG开发和测试。

L3阶段:跃迁篇 | Agent智能体架构设计
- Agent核心功能设计:设计和实现Agent的核心功能。
- 从单智能体到多智能体协作:探讨多个智能体之间的协同工作。
- 智能体交互任务拆解:分解和设计智能体的交互任务。
- 10+Agent实践:进行超过十个Agent的实际项目练习。

L4阶段:精进篇 | 模型微调与私有化部署
- 打造您的专属服务模型:定制和优化自己的服务模型。
- 模型本地微调与私有化:在本地环境中调整和私有化模型。
- 大规模工业级项目实践:参与大型工业项目的实践。
- 模型部署与评估:部署和评估模型的性能和效果。

专题集:特训篇
- 全新升级模块:学习最新的技术和模块更新。
- 前沿行业热点:关注和研究当前行业的热点问题。
- AIGC与MPC跨领域应用:探索AIGC和MPC在不同领域的应用。

掌握以上五个板块的内容,您将能够系统地掌握AI大模型的知识体系,市场上大多数岗位都是可以胜任的。然而,要想达到更高的水平,还需要在算法和实战方面进行深入研究和探索。
- AI大模型学习路线图
- 100套AI大模型商业化落地方案
- 100集大模型视频教程
- 200本大模型PDF书籍
- LLM面试题合集
- AI产品经理资源合集
以上的AI大模型学习路线,不知道为什么发出来就有点糊,高清版可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

二、640套AI大模型报告合集
这套包含640份报告的合集,全面覆盖了AI大模型的理论探索、技术落地与行业实践等多个维度。无论您是从事科研工作的学者、专注于技术开发的工程师,还是对AI大模型充满兴趣的爱好者,这套报告都将为您带来丰富的知识储备与深刻的行业洞察,助力您更深入地理解和应用大模型技术。
三、大模型经典PDF籍
随着人工智能技术的迅猛发展,AI大模型已成为当前科技领域的核心热点。像GPT-3、BERT、XLNet等大型预训练模型,凭借其卓越的语言理解与生成能力,正在重新定义我们对人工智能的认知。为了帮助大家更高效地学习和掌握这些技术,以下这些PDF资料将是极具价值的学习资源。

四、AI大模型商业化落地方案
AI大模型商业化落地方案聚焦于如何将先进的大模型技术转化为实际的商业价值。通过结合行业场景与市场需求,该方案为企业提供了从技术落地到盈利模式的完整路径,助力实现智能化升级与创新突破。

希望以上内容能对大家学习大模型有所帮助。如有需要,请微信扫描下方CSDN官方认证二维码免费领取相关资源【保证100%免费】。

祝大家学习顺利,抓住机遇,共创美好未来!
更多推荐



所有评论(0)