智能体(aGENT简介
思考行动观察。
-
理解智能体
- 什么是智能体,它是如何工作的?
- 智能体如何利用推理和规划做出决策?
-
大型语言模型(LLM)在智能体中的作用
- LLM 如何作为智能体背后的“大脑”。
- LLM 如何通过消息系统组织对话。
-
工具与行动
- 智能体如何使用外部工具与环境互动。
- 如何为您的智能体构建和集成工具。
-
智能体工作流
- 思考 → 行动 → 观察。
Agent
Agent 是一个利用 AI 模型与环境交互以实现用户定义目标的系统。它结合了推理、规划和行动的执行(通常通过外部工具)来完成任务。
将 Agent 视为包含两个主要部分:
- 大脑(AI 模型)
这里是所有思考发生的地方。AI 模型 处理推理和规划。它根据情况 决定采取哪些行动。
- 身体(能力和工具)
这部分代表 Agent 能够执行的一切。
可能行动的范围 取决于 Agent 配备了什么。例如,因为人类没有翅膀,他们不能执行“飞”这个 行动,但他们可以执行“走”、“跑”、“跳”、“抓”等 行动。
Agent 中最常见的 AI 模型是 LLM(大型语言模型),它以 文本 作为输入并输出 文本。
LLM 是很棒的模型,但 它们只能生成文本。
Agent 可以通过 工具(tool)执行我们实现的任何任务来完成 行动(action)。
LLM
LLM 是一种擅长理解和生成人类语言的 AI 模型。它们在大量文本数据上进行训练,从而能够学习语言中的模式、结构甚至细微差别。这些模型通常由数百万个参数组成。
现在大多数 LLM 都基于 Transformer 架构构建——这是一种基于“注意力”算法的深度学习架构,自 Google 于 2018 年发布 BERT 以来,受到了广泛关注。
工具
工具是赋予 LLM 的一个函数。此函数应实现一个明确的目标。
以下是 AI Agent 中一些常用的工具:
| 工具 | 描述 |
|---|---|
| 网页搜索 | 允许 Agent 从互联网获取最新信息。 |
| 图像生成 | 根据文本描述创建图像。 |
| 检索 | 从外部来源检索信息。 |
| API 接口 | 与外部 API(GitHub、YouTube、Spotify 等)交互。 |
请注意函数定义前的 `@tool` 装饰器。我们将能够通过装饰器提供的 `to_string()` 函数从源代码中自动检索
通过“思想-行动-观察”循环理解AI Agent
Agent的工作是一个持续的循环:**思考(Thought)→行动(Act)→观察(Observe)**。
让我们一起分解这些行动
- **思想**:Agent的LLM部分决定下一步应该是什么。
- **行动**:Agent通过调用工具并附带相关参数来执行行动。
- **观察**:模型反思工具的响应。
“思想-行动-观察”循环
这三个组件在一个连续的循环中协同工作。用编程的类比来说,Agent使用了一个**while循环**:循环持续进行,直到Agent的目标实现为止。
思考:内部推理和 ReAct 方法
思维链 (CoT)
思维链 (CoT) 是一种提示技术,引导模型在生成最终答案之前逐步思考问题。
它通常以
“让我们一步一步地思考。”
这种方法有助于模型内部推理,尤其是对于逻辑或数学任务,而无需与外部工具交互。
ReAct:推理 + 行动
一个关键方法是 ReAct 方法,它结合了“推理”(思考)和“行动”(行动)。
ReAct 是一种提示技术,鼓励模型逐步思考,并在推理步骤之间穿插行动(例如使用工具)。
这使得智能体能够通过交替进行以下操作来解决复杂的、多步骤的任务:
- 思考:内部推理
- 行动:工具使用
- 观察:接收工具输出
🔁 比较:ReAct 与 CoT
| 特性 | 思维链 (CoT) | ReAct |
|---|---|---|
| 逐步逻辑 | ✅ 是 | ✅ 是 |
| 外部工具 | ❌ 否 | ✅ 是(行动 + 观察) |
| 最适合 | 逻辑、数学、内部任务 | 信息搜寻、动态多步骤任务 |
更多推荐


所有评论(0)