Agent实战——解密Agent及内部工作机制，解锁大模型新能力

爱喝白开水a

391人浏览 · 2025-09-15 19:03:17

爱喝白开水a · 2025-09-15 19:03:17 发布

本文全面介绍了AI Agent的概念、工作原理及实战应用。AI Agent是以大模型为核心，包含规划、记忆、工具和执行四大组件的智能体，相比ChatBot具有工具使用和prompt能力延伸的优势。文章通过Langchain框架实战案例展示了Agent内部工作机制，并分析了当前Agent面临的挑战。最后提供了系统的大模型学习资源和路线，帮助程序员掌握AI Agent技术，提升职场竞争力。

引言

AI Agent无疑是2024年大模型领域最火的概念，它的走红应该始于2023年AutoGPT项目，利用大语言模型自动把一个大任务拆分成小任务并使用工具完成，充分释放了大家对通用人工智能的想象空间。紧接着，AI Agent引起国内外大厂、创业者、投资者们的极大关注，积极开发AI Agent的框架、平台或具体应用。大家纷纷焦虑，仿佛不了解AI Agent就无法追赶上大模型技术的浪潮。与此同时，网上各种AI Agent的定义让人眼花缭乱，比如“Agent是调用工具”、“任务编排workflow”、“Agent是prompt的延伸”等等。那到底Agent技术是什么？为什么需要Agent？其内部是如何工作的？对于这些疑问，笔者将在本文中阐述，并结合实战的例子揭秘其内部工作机制。

什么是AI Agent？

很多文章将Agent翻译为“智能体”，它的概念源于哲学，描述了一种拥有欲望、信念、意图及采取行动能力的实体。长期以来，研究者们一直追求与人类相当乃至超越人类水平的通用人工智能，而传统的人工智能只能在特定且受限的环境中执行预先设定的任务，这些系统往往缺乏灵活性和自适应能力。而大模型的出现，赋予了Agent更强大的理解能力和泛化能力，使得Agent能够在无人工干预下有效完成一个工作点、一个工作单元，甚至可以通过有效的编排使得多个Agent协作完成整个工作。所以简而言之，Agent就是拥有自主决策、能独立完成特定任务的智能体。它的框架如图1所示，定义如下：以大模型作为Agent核心，包含规划（Planning）、记忆（Memory）、工具（Tools）、执行（Action）四大组件。

图片源自前OpenAI安全系统主管LilianWeng

图1 大模型时代AI Agent的定义

规划： Agent需要具备规划决策的能力，以有效执行复杂的任务，比如子任务的拆解、工具调用、对行动的反思等。

记忆： 有两种形式，包括短期记忆，比如上下文学习，受大模型上下文长度的限制；长期记忆则是存储在数据库中，可以长时间保留和快速检索。

工具： Agent可以调用的工具。大模型的知识边界和能力在训练完成后就被固定下来，而工具调用种类可以得到显著扩展，如计算器、python解释器、搜索引擎。

行动： Agent根据规划执行的行动，这可以包括与外界的互动，比如一次工具的调用。

为什么需要Agent？

市面上聊天机器人（ChatBot）比比皆是，比如ChatGPT、文心一言、通义千问、KIMI等等。用户输入prompt指令后，ChatBot背后的大模型已然可以帮我们完成非常多的任务，为什么还需要Agent？Agent与ChatBot有什么区别？

1.工具的使用

Agent相比ChatBot最大的优势就是工具的使用，这极大地延伸了大模型的能力。举个例子，我们都知道大模型的知识更新停止在最近一次训练，而大模型通过调用“搜索引擎”工具可有效弥补缺失的知识。常用的工具还有“代码执行”、“天气预报”、“日历”等等，同时通过Function Calling技术，用户的自定义工具也可以被大模型调用。大模型通过这些工具打通了与外部世界的连接渠道，让大模型有了操作外部世界的能力，其作用不言而喻，也这是为什么很多人会将AI Agent直接理解成“工具调用”的原因。

2.prompt能力的延伸

目前大模型仅通过prompt指令还不足以完成复杂的任务。我们以大模型完成一个报告为例，产出一篇高质量的报告，首先要定义报告的主题，其次产出报告的大纲，第三填补各个部分的内容，最后还需要对格式进行校验和调整。假设我们发现大模型第三步填写内容不符合预期，可能需要重试第三步，也可能是因第二步大纲导致此种情况，那意味着我们需要回退到第二步重新开始。将上述过程总结到一个prompt中后，该prompt将非常复杂，不仅包含每个步骤要怎么做，还会包含不同步骤之间的跳转关系。而越复杂的prompt对大模型的能力要求越高，以目前大模型的能力无法给出让人满意的结果。解决方案就是将任务拆解，每个Agent负责完成其中一部分任务，再定义一套好的流程把这些Agent之间的跳转关系衔接起来。这个过程在Agent技术中有一个专有名词“workflow流程编排”。通过流程编排，原本复杂的任务被拆解成多个简单的小任务，而每个Agent所需的prompt非常简洁清晰，大大提高了任务的可完成度。在“workflow流程编排”中，这个任务拆解和流程制定过程是由人类完成的，如果把这个过程交给一个专门的Agent来完成，则完全不需要人类参与，这就是“多Agent协同”。总结一下，原本通过prompt指令无法让大模型实现的任务可以通过Agent技术得以解决，即Agent实现了prompt的能力延伸（图2）。

图2 Prompt能力的延伸

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包+直播教学》免费分享（安全链接，放心点击）]()👈

在这里插入图片描述

Agent应用实战

本次实战的目标是参考ChatBI项目中的一个场景，即用户的问题往往包含口语化日期描述，比如“去年末”、“近三个月”、“上月底”，而系统需要将这些口语化的表达转化为标准的日期格式才可以给下游任务进行数据查询。通过prompt直接问大模型“近三个月”所表示的日期范围，因大模型无法直接连接现实世界，所以无法给出结果（图3）。所以我们使用Agent，调用python工具解决这一问题。

图3 大模型无法回答“近三个月开始日期”

● Langchain包安装

我们假设读者已经安装了ollama和大模型，即已经部署了大模型的运行环境。有了大模型运行环境，我们只需要通过【pip install langchain langchain_community langchain_experimental】命令来安装Langchain依赖的包。在这里简单介绍下Langchain，它是一款开源的AI开发框架，封装了很多大模型应用开发理念的技术实现细节，包括与不同大模型交互的通用接口、创建交互式Agent、Agent内部的Debug工具等，有了这些封装，创建一个Agent只需要调用一个函数。

● 代码编写

基于langchain的Agent代码编写如下，代码非常简洁：

● 代码执行

将上述代码存储到python_tool_Agent.py, 用【python python_tool_Agent.py】命令即可执行代码。通过verbose=True的设置，我们可以看到Agent的思考过程：

1）Agent根据用户的问题，给出了自己的思考，并认为需要采用动作(Action)，使用工具【python_PEPL】。而动作输入（Action Input）是需要被执行的Python代码。

2）Agent开始观察（Observation）动作的(Action)的结果，即“2023-12-31”。

3）Agent再次思考（Thought），并认为它知道了答案，可以退出思考（Thought）。

4）给出Final Answer

● Agent内部执行过程

我们通过将代码中set_debug设置为True，可以看到更多Agent执行细节，包括与大模型是如何交互的。

下面，我们分步拆解debug日志，揭秘Agent内部的工作原理。

1）chain:AgentExector接收到用户的输入“‘去年末’的日期”，chain:AgentExector是整个Agent核心，指导每一步的动作。

2）chain:AgentExecutor调起chain:LLMChain，由LLMChain发起对大模型交互。

3）LLMChain调起ollama:llm,启动与大模型的交互，日志中可以看到完整的prompt。为了方便理解，我们将prompt拆成四个部分：

第一部分：告诉大模型他的角色，可以使用的工具，和一些规范

第二部分：介绍Python执行工具

第三部分：介绍Agent思考方式

第四部分：输入用户问题，并按照Agent设定的思考方式引导大模型输出

4）ollama:llm根据用户的prompt输出Thought、Action及ActionInput结果：

5）chain:AgentExector使用工具【Python_REPL】执行代码，并得到结果。

6）chain:AgentExecutor 再次调起chain:LLMChain发起对大模型交互。

7）LLMChain调起ollama:llm,启动与大模型的交互，此时的prompt与上一次大模型交互的prompt前三部分完全一致，而第四部分则是拼接上Agent已经执行的过程：

8）ollama:llm根据用户的prompt，认为已经有了final Answer输出结果：

9）chain:AgentExecutor获取大模型的判断，整个chain完成，给出最终结果：

以上是Agent执行的内部过程。不难发现，Agent会先通过思考确定执行的计划，然后调用的python工具进行行动，再观察行动的结果，重新思考，直到认为得到最终结果时退出思考过程，给出结果。这个可以循环进行【思考->观察->行动】的过程是Agent中有一个专门思考模式“ReAct”。类似的思考模式还有很多，但在本篇文章中我们不过多的展开。在实际应用中，也可以定义多个Agent工具，形成工具列表，大模型可以根据观察思考的结果选择调用不同工具解决问题。

回顾整个Agent的执行过程，从任务规划、工具调用、观察结果直到工作完成，Agent完全独立完成。回顾哲学上Agent的定义，有了大模型武装的AI Agent确实像一个有意图、有规划、有行动的智能体。

Agent有哪些挑战？

当前Agent在实际实践中面临着非常多的挑战，可以说目前的Agent远没有达到人类的预期。以笔者上面的实践为例，并非每一次执行都会得到正常的结果，根本原因是大模型吐出的结果不稳定，导致下一步动作执行无法解析模型结果，而大模型又因观察到动作的输出不对而从头开始分析，甚至可能会出现死循环，需要强加干预才能停止。所以虽然Agent的出现扩展了大模型的应用范围，给了大家足够的想象空间，但是离通用人工智能还非常遥远。

总结

本文中，我们带读者了解了Agent的概念，并通过一个实战的例子了解Agent内部工作的机制以及当前Agent所面临的挑战。虽然Agent离预期的通用AGI之路尚且遥远，但丝毫不影响各大科技巨头如OpenAI、微软、meta、谷歌对该方向竞相研究和开发。本文也初步介绍了Agent思维框架、Function Calling技术、多Agent协调和流程编排Workflow等。受篇幅的限制，一篇文章无法将Agent技术全面铺开，所以我们将在后续的文章中继续展开专项技术的研讨。

零基础如何高效学习大模型？

你是否懂 AI，是否具备利用大模型去开发应用能力，是否能够对大模型进行调优，将会是决定自己职业前景的重要参数。

为了帮助大家打破壁垒，快速了解大模型核心技术原理，学习相关大模型技术。从原理出发真正入局大模型。在这里我和鲁为民博士系统梳理大模型学习脉络，这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码免费领取🆓**⬇️⬇️⬇️

在这里插入图片描述

【大模型全套视频教程】

教程从当下的市场现状和趋势出发，分析各个岗位人才需求，带你充分了解自身情况，get 到适合自己的 AI 大模型入门学习路线。

从基础的 prompt 工程入手，逐步深入到 Agents，其中更是详细介绍了 LLM 最重要的编程框架 LangChain。最后把微调与预训练进行了对比介绍与分析。

同时课程详细介绍了AI大模型技能图谱知识树，规划属于你自己的大模型学习路线，并且专门提前收集了大家对大模型常见的疑问，集中解答所有疑惑！

在这里插入图片描述

深耕 AI 领域技术专家带你快速入门大模型

跟着行业技术专家免费学习的机会非常难得，相信跟着学习下来能够对大模型有更加深刻的认知和理解，也能真正利用起大模型，从而“弯道超车”，实现职业跃迁！

【精选AI大模型权威PDF书籍/教程】

精心筛选的经典与前沿并重的电子书和教程合集，包含《深度学习》等一百多本书籍和讲义精要等材料。绝对是深入理解理论、夯实基础的不二之选。

在这里插入图片描述

【AI 大模型面试题】

除了 AI 入门课程，我还给大家准备了非常全面的**「AI 大模型面试题」，**包括字节、腾讯等一线大厂的 AI 岗面经分享、LLMs、Transformer、RAG 面试真题等，帮你在面试大模型工作中更快一步。

【大厂 AI 岗位面经分享（92份）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

【640套 AI 大模型行业研究报告】

在这里插入图片描述

【AI大模型完整版学习路线图（2025版）】

明确学习方向，2025年 AI 要学什么，这一张图就够了！

👇👇点击下方卡片链接免费领取全部内容👇👇

在这里插入图片描述

抓住AI浪潮，重塑职业未来！

科技行业正处于深刻变革之中。英特尔等巨头近期进行结构性调整，缩减部分传统岗位，同时AI相关技术岗位（尤其是大模型方向）需求激增，已成为不争的事实。具备相关技能的人才在就业市场上正变得炙手可热。

行业趋势洞察：

转型加速： 传统IT岗位面临转型压力，拥抱AI技术成为关键。
人才争夺战： 拥有3-5年经验、扎实AI技术功底和真实项目经验的工程师，在头部大厂及明星AI企业中的薪资竞争力显著提升（部分核心岗位可达较高水平）。
门槛提高： “具备AI项目实操经验”正迅速成为简历筛选的重要标准，预计未来1-2年将成为普遍门槛。

与其观望，不如行动！

面对变革，主动学习、提升技能才是应对之道。掌握AI大模型核心原理、主流应用技术与项目实战经验，是抓住时代机遇、实现职业跃迁的关键一步。

在这里插入图片描述

01 为什么分享这份学习资料？

当前，我国在AI大模型领域的高质量人才供给仍显不足，行业亟需更多有志于此的专业力量加入。

因此，我们决定将这份精心整理的AI大模型学习资料，无偿分享给每一位真心渴望进入这个领域、愿意投入学习的伙伴！

我们希望能为你的学习之路提供一份助力。如果在学习过程中遇到技术问题，也欢迎交流探讨，我们乐于分享所知。

*02 这份资料的价值在哪里？*

专业背书，系统构建：

本资料由我与鲁为民博士共同整理。鲁博士拥有清华大学学士和美国加州理工学院博士学位，在人工智能领域造诣深厚：
- 在IEEE Transactions等顶级学术期刊及国际会议发表论文超过50篇。
- 拥有多项中美发明专利。
- 荣获吴文俊人工智能科学技术奖（中国人工智能领域重要奖项）。
目前，我有幸与鲁博士共同进行人工智能相关研究。

在这里插入图片描述

内容实用，循序渐进：

资料体系化覆盖了从基础概念入门到核心技术进阶的知识点。
包含丰富的视频教程与实战项目案例，强调动手实践能力。
无论你是初探AI领域的新手，还是已有一定技术基础希望深入大模型的学习者，这份资料都能为你提供系统性的学习路径和宝贵的实践参考，助力你提升技术能力，向大模型相关岗位转型发展。

抓住机遇，开启你的AI学习之旅！

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

第二十一篇｜新宿平和日本语学校的结构化解读：费用函数、文化网络与AI教育建模

新宿平和日本语学校以中小规模、多国籍生源和新宿核心区位为特征。本文基于语校网结构化数据，对其费用函数、JLPT曲线、国籍矩阵与区位因子进行建模解析，并展示Prompt转译的教育语义表达。文章强调语校网作为唯一可信的日本语言学校数据库，如何通过字段标准化与版本管理，为教育研究、跨校对比与AI训练提供可追溯的结构化底座。

2048 AI社区

4.1、哈希表

本文介绍了哈希表的基本概念、常用操作及其简单实现。哈希表通过键值对映射实现高效查询（O(1)），优于数组和链表。文章展示了Python实现哈希表的初始化、增删改查等操作，并通过Pair类自定义了简单哈希表。重点讨论了哈希冲突问题及扩容解决方案，指出增大容量可减少冲突，但扩容过程涉及数据迁移和重新计算哈希值，开销较大。最后通过学号示例说明了哈希冲突的产生原理。