加我进AI讨论学习群,公众号右下角“联系方式”

文末有老金的 开源知识库地址·全免费

上周老金我让AI帮我写个周报。

它说:

"好的,我来帮你写一份周报。"

然后?

然后它给我列了一堆要点,让我自己去Word里敲。

我说你能帮我直接生成文档吗?

它说抱歉,我无法直接操作您的电脑。

卧槽。

这不就是"动嘴不动手"吗?

但最近Google放出了一份50页的官方指南,专门讲怎么让AI从"只会说"变成"能干活"。

老金我花了3小时啃完,今天用大白话给你讲明白。

先搞懂一个词:Agent

别被这个英文词吓到。

Agent = 能自己干活的AI

普通AI:你问它问题,它回答你,完事。

Agent:你给它任务,它自己想办法完成,中间不用你管。

打个比方

普通AI就像百度百科。

你问它"怎么做红烧肉",它告诉你步骤,但你得自己去做。

Agent就像私人厨师。

你说"我想吃红烧肉",它自己去买菜、切肉、炒糖色、炖40分钟,最后端给你。

这就是本质区别。

Google说Agent由3部分组成

Google给了一个很清晰的公式:

Agent = 大脑 + 手 + 协调系统

第一部分:大脑(Model)

就是ChatGPT、Claude、Gemini、Deepseek、Qwen、GLM、Minimax这些大模型。

负责思考:

1、用户想要什么?

2、下一步该做什么?

3、这个结果对不对?

简单说,大脑负责"想"。

第二部分:手(Tools)

让AI能"动手"的工具。

比如:

1、搜索工具:能上网查资料

2、计算工具:能算数

3、API工具:能调用外部服务(订机票、发邮件、查天气)

普通AI没有"手",所以只能动嘴。

Agent有"手",所以能干活。

第三部分:协调系统(Orchestration)

负责协调大脑和手。

它的工作流程是一个循环:

1、想:让大脑思考下一步做什么

2、做:调用工具执行

3、看:观察执行结果

4、回到第1步,继续想

这个循环就是Agent的灵魂。

如果对你有帮助,记得关注一波~

举个例子你就懂了

假设你让Agent帮你"查一下明天北京的天气,如果下雨就帮我订一把伞"。

普通AI的反应:

明天北京有小雨,建议您带伞出门。

完事。

它不会帮你订伞。

Agent的反应:

第一轮循环:

想:用户想知道明天天气,还想在下雨时订伞

做:调用天气API查询

看:明天北京有小雨

第二轮循环:

想:下雨了,需要帮用户订伞

做:调用电商API搜索雨伞

看:找到了10款雨伞

第三轮循环:

想:需要选一款合适的

做:筛选评分最高、价格合理的

看:选中了一款39元的折叠伞

第四轮循环:

想:需要下单

做:调用下单API

看:订单创建成功

最终返回:已帮您订购了一把折叠伞,39元,预计明天上午送达。

看到区别了吗?

Agent会自己想、自己做、自己检查,直到任务完成。

Google推荐的方法:ReAct

Google在指南里推荐了一个方法叫ReAct。

别被名字吓到,其实很简单:

ReAct = 先想再做

每一步都要:

1、先说出自己在想什么(Reasoning)

2、再去执行动作(Acting)

为什么要这样?

因为如果AI不说出思考过程,你不知道它在干嘛。

万一它理解错了,你也发现不了。

让它"说出来",就像让员工汇报工作进度。

出问题能及时发现。

一个Agent不够用怎么办?

Google说:用多个Agent协作。

就像公司一样:

1、小项目一个人干

2、大项目要组团队

三种协作模式

模式1:流水线

Agent A做完 → 交给Agent B → 再交给Agent C

比如写文章:

1、Agent A负责搜集资料

2、Agent B负责写初稿

3、Agent C负责润色

模式2:并行

Agent A、B、C同时干活 → 最后汇总

比如做调研:

1、Agent A查国内市场

2、Agent B查国外市场

3、Agent C查竞品

4、最后汇总成报告

模式3:老板+员工

一个"老板Agent"负责分配任务,其他Agent负责执行。

老板Agent说:你去查资料,你去写代码,你去测试。

然后各干各的,最后老板汇总。

怎么防止AI瞎编?

这是Google强调的重点。

问题:AI有时候会"幻觉"(简单说就是一本正经地胡说八道)。

解决方案:让AI基于真实数据回答,不要让它瞎猜。

Google管这个叫Grounding(接地)。

方法有三个:

1、RAG:让AI先查资料库,再回答

2、调用API:让AI查实时数据,不要靠记忆

3、搜索:让AI先搜索,再回答

老金的理解

Grounding就是让AI"脚踏实地"。

不要让它凭空想象,要让它查资料。

怎么判断Agent好不好?

Google给了几个指标:

最重要的4个指标

1、任务完成率:能不能完成任务(最重要!)

2、准确率:完成得对不对

3、响应速度:快不快

4、成本:花多少钱

老金建议:先看任务完成率。

Agent能不能完成任务是最重要的。

其他都是锦上添花。

想自己做Agent怎么入门?

Google推荐用LangChain这个工具。

它是专门用来做Agent的框架。

一个简单的例子:

# 1、准备工具(手)tools = [搜索工具, 计算工具]
# 2、准备大脑llm = ChatGPT或Claude
# 3、组装Agentagent = 创建Agent(大脑=llm, 工具=tools)
# 4、让Agent干活结果 = agent.执行("帮我查一下今天的股票行情")

就这么简单。

想学的话,官方文档在这:http://python.langchain.com

老金总结

Google这份50页的指南,老金我觉得核心就一句话:

让AI从"动嘴"变成"动手"。

怎么变?

1、给AI装上"手"(工具)

2、让AI学会"想-做-看"的循环

3、让AI基于真实数据回答,不要瞎编

4、复杂任务用多个Agent协作

这可能就是Agent的全部秘密了。

以后你再看到"AI Agent"这个词,就知道它说的是什么了。

不是什么高深的东西。

就是能自己干活的AI。

你们有没有用过类似的Agent工具?效果怎么样?

大语言模型(LLM)只是AI的1.0版本,能聊天但不能干活。

Agent是2.0版本,能自己完成任务。

Google这份指南把原理讲透了,想入门的可以从LangChain开始。

有问题随时问老金我,一起研究!

参考来源

Google官方AI Agent白皮书:http://services.google.com/fh/files/misc/startup_technical_guide_ai_agents_final.pdf

LangChain官方文档:http://python.langchain.com

谢谢你读我的文章。

如果觉得不错,随手点个赞、在看、转发三连吧🙂

如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。

开源知识库地址:https://link.zhihu.com/?target=https%3A//tffyvtlai4.feishu.cn/wiki/OhQ8wqntFihcI1kWVDlcNdpznFf

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐