【李宏毅机器学习2025春】笔记——2.AI Agent

RichardSchoolbag

864人浏览 · 2025-09-04 13:44:56

RichardSchoolbag · 2025-09-04 13:44:56 发布

02 AI Agent

1 . AI Agent 基本原理
- 1.1 AI Agent特性
- 1.2 如何打造
  - 1.2.1 强化学习RL（Reinforcement Learning）
  - 1.2.2 大语言模型LLM（Large Language Model）
2 . AI Agent关键能力剖析
- 2.1 AI如何根据经验调整行为
- 2.2 AI如何使用工具
  - 2.2.1 语言模型常用工具
  - 2.2.2 使用工具过程
  - 2.2.3 常见问题
- 2.3 AI能不能做计划
  - 2.3.1 做计划流程
  - 2.3.2 如何强化AI Agent的规划能力

1. AI Agent 基本原理

1.1 AI Agent特性

以往使用AI是通过人类下达明确指令，一个口令使得AI完成一个动作. 而AI Agent是人类给予其一定目标或研究某项问题，其自行进行假设、实验、分析等过程
基本流程图：在给定目标（Goal）后，AI Agent会对周围环境进行观察（Observation）后采取行动（Action），而行动又会改变环境，使得机器会根据改变的环境采取新的行动，如此循环往复

1.2 如何打造

1.2.1 强化学习RL（`Reinforcement Learning`）

过去往往采用RL演算法打造AI Agent，通过Reward奖励机制来衡量goal，所训练的AI Agent就会Learn to Maximize Reward. 但局限是需要每一个任务都用RL训练模型

1.2.2 大语言模型LLM（`Large Language Model`）

将goal和observation转化为文字描述（option）传递给模型，同时也以文字形式产生action再转译成对应行动
相较于传统的agent，LLM不需要引入reward，可以使agent更容易按照环境的状态和回馈等调整自身行为，更加灵活.
且LLM能改变以往的回合制互动，实现更加真实的即时互动（即action1未执行完时，observation就已改变，能迅速转变为action2）

2 AI Agent关键能力剖析

2.1 AI如何根据经验调整行为

可以把经验存储起来，让模型每次行动都根据过往经验来调整行为。
但局限是，当执行次数变大时，由于每次行动都需考虑之前经验，可能导致算力不够
解决方案：将经验存入记忆模块（Menmory），引入read模组（检索系统），write模组（筛选值得记忆内容）和reflection模组（对记忆整合，也可制作Knowledge Graph）.如此，在遇到observation时只从记忆模块中选择与问题相关的经验

2.2 AI如何使用工具

2.2.1 语言模型常用工具

Search Engine
程序
Other AI（Different Capabilities）

工具可以看作是function，使用工具就是在调用这些function（Function Call）

2.2.2 使用工具过程

使用工具需提供Prompt，prompt分为System Prompt和User Prompt
system prompt一般不变，是放在模型最前面，一般是在开发过程中的prompt，给模型提供如何使用工具和使用特定工具的方法.而user prompt输入会改变，一般是使用者提供的prompt
但输出毕竟只是一段文字，需agent开发者设定特定流程，让机器按步骤进行，并设定排除掉不需呈现的内容、生成需呈现内容
ai有时会调用内部api，使用其他ai作为工具来打出“组合技”

2.2.3 常见问题

Q:工具过多怎么办？
A:可以同样构建一个memory作为工具包，根据不同情况选定特定工具（模型甚至可以自己打造工具到工具包内）
在这里插入图片描述

Q：语言模型有没有自己的判断能力？
A：有，语言模型在使用工具或RAG时，有自己的internal knowledge.它从工具获得external knowledge，二者差距越大，模型就越不相信工具提供的外部知识。且同一个问题，模型更倾向于相信ai同类提供的答案而不是人类提供的
Q：如果工具可靠，ai一定不会出错吗？
A：不是，就算找到所有资料都是对的，不保证答案就是对的（往年ai在出现重名问题时，会把两人混淆成同一个人，目前该问题已解决）

2.3 AI能不能做计划

2.3.1 做计划流程

ai先通过给定的obs1创造出一个plan，若顺利则一路执行下去.但在obs1适用的plan，在下一时刻obs2不一定适用.理想的做法是让ai在每个obs都创造出plan2加入到这个sequence中

2.3.2 如何强化AI Agent的规划能力

可以通过爆搜所有路径来找出最优解，但是很明显的缺点是，路径一旦长起来，所需要算力以指数级增长，且得到的结果也不一定是切实际的做法
基于以上方法的优化是模型给每一步行动赋予可能实现的概率，把一些低于threshold方向给舍弃（类似于剪枝），这种方法叫作Tree Search.其缺点是有些动作（如订餐）无法回溯
为了解决无法回溯的问题，则需要World Model来模拟环境可能会有的变化，可以让ai自己扮演World Model来找出所有可能的情况和最优解.

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

《ChatGLM-B微调：实现行业专属大模型的详细步骤》

准备行业专属数据集，需包含至少10万条高质量文本，格式为JSON或CSV，涵盖领域内常见问答、术语及场景。清洗数据去除噪声（如特殊字符、乱码），标准化文本格式（统一标点、大小写）。划分训练集（80%）、验证集（10%）和测试集（10%），确保数据分布均衡。配置训练参数：学习率设为2e-5，批次大小（batch size）为4，启用梯度裁剪（max_grad_norm=1.0）。启动训练循环，每50

2048 AI社区

Expect脚本实战：多条件匹配与防卡死技巧

在自动化测试和系统初始化中，我们常常使用 Expect 脚本来完成一系列交互操作，比如自动输入密码、监听输出并作出响应。然而，实际项目中可能遇到多步骤输出匹配的场景：只有在先匹配到某一行输出，再匹配到另一行输出时，才需要做出响应。同时，如果 “testX failed” 出现了，但 “set params error” 没有在合理时间内出现，不要卡死，而是打印警告并继续。这个写法的问题在于：如