【datawhale】Agentic AI学习笔记

本文探讨了Agentic AI的概念及其与AI Agent的区别。Agentic AI是由多个专业Agent协同工作的系统，能动态交互并实现高层次目标，而AI Agent是执行单一任务的个体。文章介绍了Agentic AI的组成要素，包括反思、工具使用、规划和多智能体协作等功能，并提出了两种评估方法：端到端评估和组件级评估。通过对比图例说明了两类系统在自主性和协作能力上的差异，为理解新一代AI系统

晓山清

613人浏览 · 2025-11-10 22:55:05

晓山清 · 2025-11-10 22:55:05 发布

文章目录

Introduction
反思(Reflection Design Pattern)
- 工作流workflow
- 编写反思提示的两大黄金法则：
执行-工具使用(Tool Use)
- 工具是什么(definition of tool)
- 让模型自己写代码
规划(Planning)
协作(Multi-agent collaboration)

基于datawhale的Agentic-AI共学以及吴恩达老师在 DeepLearning.AI 推出的 Agentic AI 系列课程

Introduction

定义definition

本质是AI，可以说是可以通过调用不同的agent来实现任务的AI

辨析：AI Agent 和 Agentic AI 区别

AI Agent本质是Agent，是可以利用AI的agent。FYI：Agent更多是强化学习中的概念，即与环境进行交互，执行action，得到rewards

如图(Sapkota et al.)，AI Agent接收用户设定的温度值，并自主控制加热或冷却系统以维持目标温度。虽然它能够表现出一定的自主性，比如学习用户的作息时间或在无人时减少能耗，但它仅在孤立状态下运行，执行单一且明确的任务，而不涉及更广泛的环境协调或目标推断。

Agentic AI 系统——多个专业化 Agent 协同互动，管理诸如天气预测、日常安排、能源定价优化、安全监控以及备用电源激活等多种功能。它们不仅仅是响应式模块，还可以动态通信、共享记忆状态，并协同实现高层次系统目标。

“非智能体”&“智能体”工作流

四种设计模式：

反思 (Reflection)

执行 - 工具使用 (Tool Use)

规划 (Planning)

多智能体协作 (Multi-agent collaboration)

R. Sapkota, K. I. Roumeliotis, and M. Karkee, “AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges,” Information Fusion, vol. 126, p. 103599, Feb. 2026, doi: 10.1016/j.inffus.2025.103599.

自主性degree of autonomy

在这里插入图片描述

组成composition

在这里插入图片描述

评估evaluation

1、端到端评估 (End-to-end evals):衡量整个智能体最终输出的整体质量。
例如：评估一篇完整论文的最终得分。
2、组件级评估 (Component-level evals):衡量智能体工作流中单个步骤或组件的输出质量。

方法：

构建评估指标(量化指标便于统计，但要考虑到不可量化的因素)

LLM as judge

反思(Reflection Design Pattern)

Reflection 是一种提示策略(prompt stategy)

工作流workflow

生成初稿 (Write first draft) $\rightarrow$ 反思与改进 (Reflect and write improved second draft)

例如，写邮件：
初始prompt是“Write an email…”，此时获得Email V1将第一版输出（Email V1）
再将prompt是Email V1+“review this email and improve it”发送给 LLM（可以是同一个模型，也可以是另一个专门用于推理的模型）
注：除了self-Reflection 外还可以结合外部反馈，比如说将 code V1、Output 和 Errors 一起作为prompt输入

编写反思提示的两大黄金法则：

明确指示反思动作 (Clearly indicate the reflection action):
- 不要含糊地说“请改进”，而要说“请审查”、“请检查”、“请验证”。
- 明确告诉模型你要它做什么，例如“审核电子邮件初稿”或“验证HTML代码”。
具体指定检查标准 (Specify criteria to check):
- 不要只说“让它更好”，而要列出具体的评判标准。
- 例如，在域名任务中，标准是“易发音”和“无负面含义”；在邮件任务中，标准是“语气专业”和“事实准确”。
- 这样做能引导模型围绕你最关心的维度进行深入思考和改进。

Notes：

反思机制并非万能，其效果因应用场景而异。在某些任务上提升显著，在另一些任务上则可能微乎其微。

在“性能提升”与“效率损耗”之间trade-off

执行-工具使用(Tool Use)

工具是什么(definition of tool)

工具即（预先写好的）函数，给模型自主决策使用。e.g.模型会选择需要使用某个工具，于是将需要的参数给这个函数，然后拿到函数的执行结果。

让模型自己写代码

与其让工程师逐个实现功能，不如让系统自己编写并执行代码来解决问题

设计系统提示词 (System Prompt)：
- 指令模型：“编写代码来解决用户的问题”。
- 要求模型将答案以 Python 代码形式返回，并用 <execute_python> 和 </execute_python> 标签包裹。
模型输出：
- 对于查询 “What’s the square root of 2?”，模型可能输出：
```
<execute_python>
import math
print(math.sqrt(2))
</execute_python>
```
提取与执行：
- 使用正则表达式等模式匹配技术，从模型输出中提取被标签包裹的代码。
- 在安全的沙盒环境中执行提取出的代码。
- 获取执行结果（例如 1.4142135623730951）。
反馈与格式化：
- 将数值结果传回给 LLM。
- LLM 根据原始问题，生成一个格式良好的最终答案（例如：“The square root of 2 is approximately 1.4142.”）。

Note：

在安全沙盒环境执行代码

MCP协议

规划(Planning)

TBD

协作(Multi-agent collaboration)

TBD

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI随身WIFI哪家适合户外直播网速快

特点简述：该产品以“AI技术赋能 + 场景化适配”为核心特点。搭载自主研发的AI信号优化算法，能实时扫描周边信号，动态切换最优频段，在信号复杂区域网络稳定性提升60%以上；具备流量智能管控和故障自诊断能力。产品尺寸小巧，仅掌心大小，重量不足100g，且续航能力强，内置5000mAh电池，普通使用可连续供电8 - 10小时，同时支持边充边用。它还采用防摔耐磨外壳，适应 - 10℃至45℃的环境温度。

2048 AI社区

系统存储机制深度剖析技术文章大纲

本文系统探讨了计算机存储机制的核心技术与优化策略。首先介绍了存储介质分类（SSD/HDD/NVM）和层次结构（寄存器-外存），分析数据存取原理。其次对比主流文件系统（EXT4/NTFS/ZFS），剖析其核心组件与一致性保障机制。重点阐述现代存储优化技术，包括缓存算法（LRU/LFU/ARC）、数据压缩和分布式架构（RAID/纠删码）。同时探讨存储安全方案（加密/容灾/自修复）和性能调优方法（预读/