Hello-Agents阅读 第一章 初识智能体
1.是什么?
人工智能领域,智能体被定义为任何能够通过传感器(Sensors)感知其所处环境(Environment),并自主地通过执行器(Actuators)采取行动(Action)以达成特定目标的实体。(四要素:传感器/自主性/执行器/行动)
2.分类
a.基于内部决策架构:反应式智能体/模型式智能体/基于目标的智能体/基于效用的智能体
反射智能体决策核心由明确设计的“条件-动作”规则构成,完全依赖于当前的感知输入,不具备记忆或预测能力。
基于模型的反射智能,拥有一个内部的世界模型,用于追踪和理解环境中那些无法被直接感知的方面。内部模型让智能体拥有了初级的“记忆”,使其决策不再仅仅依赖于瞬时感知,而是基于一个更连贯、更完整的世界状态理解。
基于效用的智能体为每一个可能的世界状态都赋予一个效用值,这个值代表了满意度的高低。智能体的核心目标不再是简单地达成某个特定状态,而是最大化期望效用。
学习型智能体不依赖预设,而是通过与环境的互动自主学习,包含一个性能元件(前面各类智能体)和一个学习元件。学习元件通过观察性能元件在环境中的行动所带来的结果来不断修正性能元件的决策策略(代表性方法之一:强化学习)。
b.根据时间与反应性:反应式/规划式/混合式
混合式经典架构--分层:底层是一个快速的反应模块,处理紧急情况和基本动作;高层则是一个审慎的规划模块,负责制定长远目标。
一种更灵活的混合模式:“思考-行动-观察”的循环,行动/观察观察过程中获得反馈实时调整
c.基于知识表示(不展开)
3.动手体验
主循环中模拟“思考-行动-观察”循环
思考
llm_output = llm.generate(full_prompt, system_prompt=AGENT_SYSTEM_PROMPT)
-
模型根据上下文生成下一步该做什么(比如“查天气”或“推荐景点”)。
行动
action_match = re.search(r"Action: (.*)", llm_output)
-
模型输出中必须包含一个
Action:字段,格式类似:Action: search(query="北京天气") -
系统用正则解析出工具名和参数,然后调用对应的工具函数。
观察
observation_str = f"Observation: {observation}"
-
比如工具返回了天气信息,系统就把它记录进历史,供下一轮模型参考。
细节
a.prompt_history 用来记录整个对话过程,包括用户输入、模型输出、工具返回结果等,作为观察的内容
b.工具函数提前定义好(天气查询wttr.in/ 搜索引擎Tavily Search),根据模型输出结果在代码中匹配调用,返回结果计入历史和prompt,作为执行(LLM“调用”工具的方式)
c.基于Thought-Action-Observation范式的智能体所具备的四项基本能力:任务分解、工具调用、上下文理解和结果合成
4.智能体协作模式
A.开发者工具(辅助功能)- 人类一步步指导AI
B.自主协作者 - 人类直接委托高层级目标
a.单智能体自主循环
如 AgentGPT 所代表的模式。其核心是一个通用智能体通过“思考-规划-执行-反思”的闭环,不断进行自我提示和迭代,以完成一个开放式的高层级目标。
b.多智能体协作
模拟人类团队的协作模式来解决复杂问题,
角色扮演式对话:如 CAMEL 框架,通过为两个智能体(例如,“程序员”和“产品经理”)设定明确的角色和沟通协议,让它们在一个结构化的对话中协同完成任务。
组织化工作流:如 MetaGPT 和 CrewAI,模拟一个分工明确的“虚拟团队”(如软件公司或咨询小组)。AutoGen 和 AgentScope 则提供了更灵活的对话模式,允许开发者自定义智能体间的复杂交互网络。
c.高级控制流架构;如 LangGraph 框架,将智能体的执行过程建模为状态图,更侧重于为智能体提供更强大的底层工程基础。
5.区分Workflow和Agent
Workflow 是让 AI 按部就班地执行指令,而 Agent 则是赋予 AI 自由度去自主达成目标
工作流是一种传统的自动化范式,其核心是对一系列任务或步骤进行预先定义的、结构化的编排。它本质上是一个精确的、静态的流程图,规定了在何种条件下、以何种顺序执行哪些操作。整个过程的每一步、每一个判断条件都被精确地预先设定。(内置的条件判断)
基于大型语言模型的智能体是一个具备自主性的、以目标为导向的系统。它不仅是执行预设指令,而是能够在一定程度上基于实时信息进行动态推理和决策以达成最终目标。(自主的条件判断)
更多推荐

所有评论(0)