Hello Agent

本文介绍了智能体的基本概念和发展历程。智能体被定义为能够感知环境并自主采取行动的实体。文章梳理了智能体的发展脉络：从简单的反射式智能体到基于模型、目标、效用乃至学习型的智能体。重点介绍了大语言模型(LLM)智能体及其分类方式，包括基于内部决策架构、时间反应性和知识表示的三种分类。详细阐述了智能体的核心运行机制"智能体循环"(感知-思考-行动-观察)及其关键组成部分。最后讨论了规

m0_75118184

406人浏览 · 2025-11-10 23:03:07

m0_75118184 · 2025-11-10 23:03:07 发布

一、初识智能体

简单介绍智能体，主要来源于Datawhale社区的Helloagent课程，本人做出笔记总结，教程地址如下[https://github.com/datawhalechina/hello-agents]

定义：任何能够通过传感器（Sensors）感知其所处环境（Environment），并自主地通过**执行器（Actuators）采取行动（Action）**以达成特定目标的实体。

传统人工智能在构建机器智能的道路上所经历的发展脉络：反射智能体（简单的恒温器）—>基于模型的反射智能体(拥有内部模型的汽车)—>基于目标的智能体（能够规划路线的导航）—>基于效用的智能体（懂得权衡利弊的决策者）—>学习型智能体（通过经验自我进化的学习者）

大语言模型（Large Language Model, LLM）:代表GPT（Generative Pre-trained Transformer）

LLM 智能体：通过在海量数据上的预训练，获得了隐式的世界模型与强大的涌现能力，使其能够以更灵活、更通用的方式应对复杂任务。

在这里插入图片描述

智能体类型

（1）基于内部决策架构的分类

1.简单的反应式智能体

2.引入内部模型的模型式智能体

3.具前瞻性的基于目标和基于效用的智能体

（2）基于时间与反应性的分类

1.反应式智能体 (Reactive Agents)：这类智能体对环境刺激做出近乎即时的响应，决策延迟极低。它们通常遵循从感知到行动的直接映射，不进行或只进行极少的未来规划。上文的简单反应式和基于模型的智能体都属于此类别。其核心优势在于速度快、计算开销低，这在需要快速决策的动态环境中至关重要。

2.规划式智能体(Deliberative Agents)：与反应式智能体相对，规划式（或称审议式）智能体在行动前会进行复杂的思考和规划。它们不会立即对感知做出反应，而是会先利用其内部的世界模型，系统地探索未来的各种可能性，评估不同行动序列的后果，以期找到一条能够达成目标的最佳路径。基于目标和基于效用的智能体是典型的规划式智能体。

3.混合式智能体(Hybrid Agents)：现实世界的复杂任务，往往既需要即时反应，也需要长远规划。因此，混合式智能体应运而生，它旨在结合两者的优点，实现反应与规划的平衡。

（3）基于知识表示的分类

1.符号主义 AI（Symbolic AI）：常被称为传统人工智能，其核心信念是：智能源于对符号的逻辑操作。这里的符号是人类可读的实体（如词语、概念），操作则遵循严格的逻辑规则，这好比一位一丝不苟的图书管理员，将世界知识整理为清晰的规则库和知识图谱。其主要优势在于透明和可解释。由于推理步骤明确，其决策过程可以被完整追溯，这在金融、医疗等高风险领域至关重要。然而，其“阿喀琉斯之踵”在于脆弱性：它依赖于一个完备的规则体系，但在充满模糊和例外的现实世界中，任何未被覆盖的新情况都可能导致系统失灵，这就是所谓的“知识获取瓶颈”。

2.亚符号主义 AI（Sub-symbolic AI）：提供了一幅截然不同的图景。在这里，知识并非显式的规则，而是内隐地分布在一个由大量神经元组成的复杂网络中，是从海量数据中学习到的统计模式。神经网络和深度学习是其代表。如果说符号主义 AI 是图书管理员，那么亚符号主义 AI 就像一个牙牙学语的孩童。他不是通过学习“猫有四条腿、毛茸茸、会喵喵叫”这样的规则来认识猫的，而是在看过成千上万张猫的图片后，大脑中的神经网络能辨识出“猫”这个概念的视觉模式。这种方法的强大之处在于其模式识别能力和对噪声数据的鲁棒性。它能够轻松处理图像、声音等非结构化数据，这在符号主义 AI 看来是极其困难的任务。

3.**神经符号主义 AI（Neuro-Symbolic AI）**为克服上述两种范式的局限，一种“大和解”的思想开始兴起，这就是神经符号主义 AI，也称神经符号混合主义。它的目标，是融合两大范式的优点，创造出一个既能像神经网络一样从数据中学习，又能像符号系统一样进行逻辑推理的混合智能体。它试图弥合感知与认知、直觉与理性之间的鸿沟，为我们理解神经符号主义提供了一个绝佳的类比，如图所示：

系统 1是快速、凭直觉、并行的思维模式，类似于亚符号主义 AI 强大的模式识别能力。
系统 2是缓慢、有条理、基于逻辑的审慎思维，恰如符号主义 AI 的推理过程。

在这里插入图片描述

1.2 智能体的构成与运行原理

核心机制: 智能体循环 (Agent Loop)。该循环描述了智能体与环境之间的动态交互过程，构成了其自主行为的基础。
在这里插入图片描述

这个循环主要包含以下几个相互关联的阶段：

感知 (Perception)：这是循环的起点。智能体通过其传感器（例如，API 的监听端口、用户输入接口）接收来自环境的输入信息。这些信息，即观察 (Observation)，既可以是用户的初始指令，也可以是上一步行动所导致的环境状态变化反馈。
思考 (Thought)

：接收到观察信息后，智能体进入其核心决策阶段。对于 LLM 智能体而言，这通常是由大语言模型驱动的内部推理过程。如图所示，“思考”阶段可进一步细分为两个关键环节：
- 规划 (Planning)：智能体基于当前的观察和其内部记忆，更新对任务和环境的理解，并制定或调整一个行动计划。这可能涉及将复杂目标分解为一系列更具体的子任务。
- 工具选择 (Tool Selection)：根据当前计划，智能体从其可用的工具库中，选择最适合执行下一步骤的工具，并确定调用该工具所需的具体参数。
行动 (Action)：决策完成后，智能体通过其执行器（Actuators）执行具体的行动。这通常表现为调用一个选定的工具（如代码解释器、搜索引擎 API），从而对环境施加影响，意图改变环境的状态。

行动并非循环的终点。智能体的行动会引起环境 (Environment) 的状态变化 (State Change)，环境随即会产生一个新的观察 (Observation) 作为结果反馈。这个新的观察又会在下一轮循环中被智能体的感知系统捕获，形成一个持续的“感知-思考-行动-观察”的闭环。智能体正是通过不断重复这一循环，逐步推进任务，从初始状态向目标状态演进。

需要一套明确的交互协议 (Interaction Protocol) 来规范其与环境之间的信息交换，这个结构通常包含两个核心部分：

Thought (思考)：这是智能体内部决策的“快照”。它以自然语言形式阐述了智能体如何分析当前情境、回顾上一步的观察结果、进行自我反思与问题分解，并最终规划出下一步的具体行动。
部决策的“快照”。它以自然语言形式阐述了智能体如何分析当前情境、回顾上一步的观察结果、进行自我反思与问题分解，并最终规划出下一步的具体行动。
Action (行动)：这是智能体基于思考后，决定对环境施加的具体操作，通常以函数调用的形式表示。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

n8n智能体开发：递归字符文本分割器节点

2048 AI社区

n8n智能体开发：自定义代码工具节点

2048 AI社区

众包平台如Amazon Mechanical Turk、Figure Eight（现Appen）的大规模数据标注简介，历史，特点及用途

摘要：众包数据标注平台（如Amazon Mechanical Turk和Appen）通过将AI数据处理任务拆分为微任务，分发给全球工作者完成，为模型训练提供高效低成本的人工标注。MTurk作为先驱提供开放市场，而Appen提供企业级托管服务，支持图像分类、文本处理等多样化标注任务。尽管众包模式解决了AI数据需求，但也面临数据质量、低报酬和伦理争议等挑战。这类平台已成为AI发展的关键基础设施，其“人