本文系统梳理了AI Agent的核心概念、原理及构建模式,通过对比ReAct和Plan-and-Execute等主流模式,阐述了Agent如何从被动对话转向主动行动。文章详细介绍了构建Agent的思路和关键组件,如主程序、行为说明书和工具集,适合对AI Agent感兴趣的初学者学习参考。

1、 为什么需要 Agent

传统的大语言模型(LLM)主要依赖与用户的交互式一问一答,通常只能“回答问题”。然而,这种模式存在以下几个局限性:

缺乏环境感知:LLM 无法主动获取外部环境信息,如实时数据或用户设备状态等。

无法触及终端:LLM 只能生成文本,不能直接执行任务,如写文件、运行命令或调用接口。

这两个局限使得大模型常常只能提供问答式的交付,而无法实现更高效的结果式交付。

例如,当我询问大模型“帮我写一个贪吃蛇游戏”时,我依然需要新建项目文档,将大模型返回的代码粘贴进去并打包执行。

Agent 的意义在于:让模型不只是回答,而是 行动。

你交代目标,它会自己想步骤、用工具、看结果、修正错误,直到把事情做完。

图片

更规范的语言表述是,它能够理解任务目标、规划执行路径、调用外部工具并根据执行反馈动态调整,形成一个真正的“执行闭环”。

而这背后的核心动力,就是从“被动对话”走向“主动行动”。

2、什么是 Agent

为了解决上述问题,我们需要给 LLM 搭配上一些工具,如读写文件内容、运行终端命令等等。

通过将 LLM 与一堆工具组装,我们便得到了一个可以感知和改变外界环境并触及终端的智能程序,我们称之为 Agent。

一个基本的 Agent 应该具备如下能力。

  • 理解用户目标

  • 根据环境信息做出决策

  • 调用外部工具、服务、接口去完成任务

  • 在执行过程中根据反馈调整策略

这样智能体不仅仅是“答问题的聊天机器人”,而是能够感知环境、规划步骤、做出行动的“行动者”。

你可以把 Agent 理解成: “装上了工具箱,并且能边想边做的 LLM。”

3、 Agent 的构建模式

构建 AI Agent 并不是一件随便把 LLM 接到某个工具上就能完成的事,它有一些被业界普遍采用的模式。学习这些模式,让你对AI agent 如何实现你想要的目标会有更深的理解。

  1. 1 ReAct(Reason + Act)

ReAct 是目前 Agent 运行最为广泛的一种模式,很多框架(如 LangChain Agent、OpenAI Tool Agent、AutoGPT)本质上都是在用 ReAct。

其基本思想是:

① 模型先根据当前状态 推理(Reason) 出下一步要做的动作

② 然后将这个动作通过工具调用执行

③ 得到执行结果后,再进行下一轮推理与行动

图片

(把模型代入一下哆啦A梦!一下子就理解了)

这种循环式思考 + 行动模式非常直观,适合处理单步或者中短链决策任务。

  1. 2 Plan-and-Execute(先规划后执行)

相比 ReAct,Plan-and-Execute 模式强调两段式行为:

  1. 规划阶段
  • Agent 根据目标生成一个完整的步骤计划

  • 计划可以包括优先级、依赖关系、执行顺序等信息

  1. 执行阶段
  • 按照计划依次执行每个子任务

  • 在执行中如遇错误可以调整计划

图片

(强调分阶段完成)

这种模式特别适合结构清晰、每个子步骤又相对独立的复杂任务,比如自动生成文档、自动审批流程等。

两种模式的优缺点如下:

ReAct

优点:简单直观,较容易实现。
缺点:对于复杂多步骤任务,性能可能不够稳定;决策和行动交织,难以管理复杂计划。

Plan-and-Execute

优点:适合多步骤、复杂任务;执行可控性和追踪性高。
缺点:规划和执行分离,可能带来初始计划不准确的问题。

引用一下,流程化的表达就是这样啦

图片

图片

  1. 3 其他高级模式

现代 Agent 还加入了更多能力,例如:

  • 反思与修正机制(Reflection):使 Agent 在执行过程中自我修正
  • 多 Agent 协作(Multi-agent):不同 Agent 担任不同子任务角色
  • 自适应策略:动态根据环境反馈调整执行逻辑等

但这些只是对 ReAct 和 Plan-and-Execute 的扩展,让 Agent 能完成更复杂、更灵活的业务场景。

  1. 如何构建你自己的 Agent

下面讲解一个通用 Agent 的构建思路。

(如果觉得看不懂也没有关系,我们后几期会逐步分享搭建的agent的具体步骤)

图片可以先用大雄求助哆啦A梦实现造火箭 对构建agent有初步认识

一个Agent项目其实是一个可运行的程序工程,它通常包含如下项目文件(以ReAct框架举例说明):

  • agent.py

作用:Agent的主程序,你输入任务,它负责:

1 将任务发给模型

2 让模型按ReAct格式输出思考和下一步动作

3 解析模型的输出

4 调用工具执行动作

5 将工具结果发回模型继续推理

from prompt_template import react_system_prompt_template

from tools import tool_list



def host(question, llm):

    # 准备动作:把可用工具列表拼接进系统提示词

    system_prompt = react_system_prompt_template.replace(

        "${tool_list}",

        "\n".join(tool_list.keys())

    )



    # 1. 将任务发给模型:初始化对话上下文

    # system: 告诉模型行为规则

    # user: 给出用户当前任务

    messages = [

        {"role": "system", "content": system_prompt},

        {"role": "user", "content": f"<question>{question}</question>"}

    ]



    # 2. 进入 ReAct 主循环:思考 -> 动作 -> 观察 -> 再思考

    while True:

        # 调用大模型,让它基于当前上下文继续推理

        reply = llm(messages)



        # 如果模型已经给出最终答案,就直接结束

        if "<final_answer>" in reply:

            return extract_final_answer(reply)



        # 否则,让模型输出了下一步动作并解析

        action = extract_action(reply)



        # 根据 action 调用对应工具,执行动作

        observation = execute_action(action, tool_list)



        # 将思考过程和工具结果发回模型继续推理

        messages.append({"role": "assistant", "content": reply})

        messages.append({

            "role": "user",

            "content": f"<observation>{observation}</observation>"

        })
  • prompt_template.py

作用:Agent的行为说明书(系统提示词模板),它负责:

1. 限制模型输出按照指定格式,如:<thought><action><observation><final_answer>2. 告知模型有哪些工具,什么时候用,怎么用。



react_system_prompt_template ="""
你需要解决一个问题。为此,你需要将问题分解为多个步骤。对于每个步骤,首先使用 <thought> 思考要做什么,然后使用可用工具之一决定一个 <action>。接着,你将根据你的行动从环境/工具中收到一个 <observation>。持续这个思考和行动的过程,直到你有足够的信息来提供 <final_answer>。

所有步骤请严格使用以下 XML 标签格式输出:
- <question> 用户问题
- <thought> 思考
- <action> 采取的工具操作
- <observation> 工具或环境返回的结果
- <final_answer> 最终答案

⸻

例子 :

<question>埃菲尔铁塔有多高?</question>
<thought>我需要找到埃菲尔铁塔的高度。可以使用搜索工具。</thought>
<action>get_height("埃菲尔铁塔")</action>
<observation>埃菲尔铁塔的高度约为330米(包含天线)。</observation>
<thought>搜索结果显示了高度。我已经得到答案了。</thought>
<final_answer>埃菲尔铁塔的高度约为330米。</final_answer>

⸻

请严格遵守:
- 你每次回答都必须包括两个标签,第一个是 <thought>,第二个是 <action><final_answer>
- 输出 <action> 后立即停止生成,等待真实的 <observation>,擅自生成 <observation> 将导致错误
- 如果 <action> 中的某个工具参数有多行的话,请使用 \n 来表示,如:<action>write_to_file("/tmp/test.txt", "a\nb\nc")</action>
- 工具参数中的文件路径请使用绝对路径,不要只给出一个文件名。比如要写 write_to_file("/tmp/test.txt", "内容"),而不是 write_to_file("test.txt", "内容")

⸻

本次任务可用工具:
${tool_list}
  • tool_list

作用:agent的执行工具,里面有诸多预设写好的工具方法如:文件读写/图表绘制等。

# tool_list 中的文件读写工具示例

def read_file(file_path: str) -> str:

    with open(file_path, "r", encoding="utf-8") as f:

        return f.read()





def write_file(file_path: str, content: str) -> str:

    with open(file_path, "w", encoding="utf-8") as f:

        f.write(content)

    return f"文件已保存到 {file_path}"
  • 其他文件

该模块包含.env(密钥/环境配置文件),pyproject.toml(依赖清单),README.md(说明文件)等。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

图片

以上资料如何领取?

在这里插入图片描述

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

图片

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
在这里插入图片描述
在这里插入图片描述

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
在这里插入图片描述
在这里插入图片描述

以上全套大模型资料如何领取?

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐