01.LLM Agents - 赋予生成式AI感知世界的能力

在生成式AI迅速发展的今天,LLMs 以其强大的文本理解和生成能力,已在各个领域展现出巨大潜力。然而,传统LLM存在明显的局限性:

  • 知识边界受限

    LLM仅能访问训练数据中已有的信息,无法获取实时数据及外部最新信息。

  • 缺乏行动能力

    LLM本身无法执行外部操作,如调用API、查询数据库、发送邮件等。

为突破上述局限性,业界提出了Agent的概念。简单来说,Agent 是以LLM为核心、具备内在推理能力(reasoning)与外部工具调用(tools)能力的自主系统。通过这一设计,Agent使生成式AI具备了感知外部世界、主动规划并执行复杂任务的能力。

典型的Agent架构通常包括三个核心组成部分:

  • 模型(Model)

    以LLM为决策核心,负责内部推理与决策;

  • 工具(Tools)

    通过Extensions、Functions、Data Stores等机制连接外部数据和服务;

  • 编排层(Orchestration Layer)

    利用推理框架(如ReAct、Chain-of-Thought)规划任务步骤、调用工具、管理记忆状态。

通过这些核心组件的协同工作,Agent可实现更复杂、更真实场景下的应用,例如:

  • 实时查询并整合最新信息(如实时航班、体育赛事信息);
  • 主动调用外部服务完成特定任务(如发送邮件、预订机票);
  • 访问特定领域或私有数据(如企业数据库、知识库)以增强响应能力。

img

02.什么是Agent:定义与基本架构

Agent本质上是基于生成式AI模型的自主应用程序。其目标是通过观察环境、使用外部工具并自主决策和行动,以达成设定好的任务目标。

Agent具有以下几个关键特征:

  • 自主性(Autonomous)

    无需持续的人类干预,根据明确的目标或指令自主执行;

  • 主动性(Proactive)

    在没有详细指示的情况下,能主动规划并确定下一步行动;

  • 工具调用(Tool Usage)

    通过外部工具扩展模型本身无法实现的功能,如数据查询、API调用等;

  • 推理决策(Reasoning & Decision Making)

    具备内在的决策逻辑,能基于环境信息和任务目标进行推理规划。

Agent的基本架构(General Agent Architecture)由三个核心组件组成:

  • 模型(Model)

    • 作为Agent的决策核心;
    • 模型负责接收任务输入、进行内部推理(如ReAct、Chain-of-Thought或Tree-of-Thoughts)并决定下一步行动;
    • 模型可以是通用(general-purpose)或特定任务微调(fine-tuned),视具体应用场景而定。
  • 工具(Tools)

    • Extensions

      标准化的API调用接口,模型直接调用并执行API;

    • Functions

      模型生成调用参数,由客户端(client-side)执行API调用;

    • Data Stores

      通过向量数据库实现实时数据检索和增强(RAG),补充模型的知识边界。

  • 编排层(Orchestration Layer)

    • Agent内部的核心调度机制,控制信息输入、模型推理过程、工具调用和输出生成;
    • 通常采用推理框架(如ReAct、CoT、ToT)来实现Agent的任务规划和决策;
    • 通过循环运行(如ReAct循环)持续执行推理-行动-观察(Thought-Action-Observation)过程,直至达到最终目标或终止条件。

Agent vs. 传统LLM的关键区别

传统LLM(Models) Agent框架(Agents)
知识局限于训练数据,无实时数据访问能力 可通过工具实时访问外部数据,扩展知识边界
一次性推理,缺少内在状态管理能力 具备内在状态管理(如会话历史),支持多轮交互
无原生工具调用能力 原生支持外部工具调用(Extensions, Functions, Data Stores)
无内置逻辑推理与任务规划机制 内置推理与任务规划机制,如ReAct、Chain-of-Thought

通过以上架构与能力,Agent显著扩展了传统LLM的应用场景,赋予了生成式AI更广泛、更实用的交互能力和决策能力。

03.Agent Tools 详细解析

尽管LLMs具备强大的文本理解和生成能力,但其知识受限于训练数据,无法直接感知或操作外部世界。为突破这一限制,Agent引入了“工具(Tools)”概念,通过工具调用实现模型与外部实时数据和服务的连接。

Tools主要分为三种主要类型:

1. Extensions

定义:以标准化方式连接外部API与Agent,使Agent能直接调用API获取实时数据或执行具体操作。

特点

  • API调用直接在Agent端(agent-side)执行;
  • 通过提供调用示例(examples)教模型如何使用该API;
  • Agent运行时自主决定调用哪个Extension以及如何调用。

适用场景

  • 需要实时、直接的API调用(如实时航班查询、天气预报API);
  • 复杂的API调用链路(multi-hop API calls),即后续行动依赖于前一步API结果。

img

2. Functions

定义:模型生成函数名和参数,实际API调用由客户端(client-side)实现和控制。

特点

  • 模型仅输出API调用所需的函数参数,不直接执行API调用;
  • API调用逻辑和流程控制由客户端自行实现;
  • 更高的安全性与灵活性,适合对数据流有精细控制需求的场景。

适用场景

  • API或数据源无法直接暴露给Agent(如内网API或安全敏感数据);
  • 需要客户端执行额外的数据处理逻辑(如API结果过滤、异步任务处理);
  • 存在时间或顺序依赖,需客户端控制API调用时机。

img

3. Data Stores

定义:基于向量数据库实现数据检索,支持Agent实时访问结构化或非结构化数据。

特点

  • 无需模型重新训练或微调,即可快速接入外部数据;
  • 通常用于实现RAG;
  • 支持多种数据格式,如PDF、Word、网页内容、数据库表格等。

适用场景

  • 动态内容检索与增强生成(如企业知识库、文档问答系统);
  • 模型知识边界之外的大量实时数据接入。

三种工具类型对比小结

工具类型(Tools) 执行位置 关键特征 典型应用场景
Extensions Agent端 模型直接调用API 实时航班、天气等实时查询
Functions 客户端 模型生成参数,客户端执行 安全敏感数据、异步处理
Data Stores Agent端 向量数据库实时RAG 企业知识库、文档问答

img

通过上述多样化的工具体系,Agents获得了实时感知外部世界、主动执行任务的能力,显著扩展了LLMs的应用场景与价值。

04.Agent 认知架构与推理框架 详细解析

(Cognitive Architectures & Reasoning Frameworks)

Agent的核心能力之一,是在面对复杂任务时进行主动的推理与规划。这种能力通常由Agent内部的认知架构(Cognitive Architecture) 实现。认知架构定义了Agent如何感知环境、处理信息并决策下一步行动。当前主流的认知架构通常围绕以下三种推理框架进行设计与实现:

1. ReAct(Reasoning and Acting)

定义与特点:
ReAct是一种广泛使用的prompt工程方法,其核心思想是将推理(Reasoning)与行动(Acting)紧密结合。模型通过反复循环执行以下步骤,逐步接近任务目标:

  • Thought(思考)

    :根据当前信息,模型内部进行推理,决定下一步的行动方案;

  • Action(行动)

    :模型选择并调用合适的工具(Tool);

  • Observation(观察)

    :获得行动结果(如工具调用返回的信息),为下一轮决策提供参考。

典型示例:
以航班查询为例:

User: "查询下周五从北京到上海的航班信息"
Thought: 我需要查询实时航班数据
Action: Flights API(航班查询工具)
Action Input: {出发地: 北京, 目的地: 上海, 日期: 下周五}
Observation: 返回具体航班信息
Final Answer: "下周五北京到上海的航班有……"

2. Chain-of-Thought(CoT)

定义与特点:
Chain-of-Thought(思维链)是一种通过显式中间推理步骤,提高LLM推理性能的prompt工程方法。CoT鼓励模型按步骤逐层推导答案,而非直接跳跃到结论。

CoT的常见子方法包括:

  • Self-consistency

    :通过生成多个推理路径,最终选择最一致的答案;

  • Active-prompt

    :主动调整提示(prompt),进一步引导模型推理;

  • Multimodal CoT

    :支持多模态输入场景(文本、图片、视频等)的推理方法。

典型示例:
以数学推理问题为例:

User: "小明有6个苹果,他吃了2个,又买了5个,现在他有几个苹果?"
CoT推理过程:
- 他原本有6个苹果。
- 吃掉2个,剩下4个苹果。
- 又买了5个,现在总共有9个苹果。
Final Answer: "现在小明共有9个苹果。"

3. Tree-of-Thoughts(ToT)

定义与特点:
Tree-of-Thoughts(思维树)是在CoT基础上进一步扩展的推理框架。它允许模型生成多个候选推理路径,形成树状结构,然后评估和选择最优路径,以解决复杂的决策和规划问题。

ToT具有以下优势:

  • 支持深度探索(Deep Exploration):适合需要多路径探索和长期规划的任务;
  • 灵活性强:通过树状结构管理多个并行推理方案,最终选择最优结果。

典型示例:
以旅行规划为例:

User: "推荐适合夏季旅行的目的地"
ToT推理过程:
- 路径1 → 海岛度假方向:马尔代夫、巴厘岛、普吉岛
- 路径2 → 山区避暑方向:瑞士阿尔卑斯、加拿大落基山脉
- 路径3 → 城市文化方向:巴黎、东京、纽约
模型评估并选择最佳路径(如海岛度假方向),继续细化推荐细节。
Final Answer: "推荐您去巴厘岛或马尔代夫,适合夏季海岛度假。"

三种推理框架对比总结

推理框架 关键特点 适用场景 优势
ReAct 思考-行动-观察循环 实时工具调用、交互式任务 实时反馈、工具调用灵活
Chain-of-Thought 显式中间推理步骤 需要明确计算与推理的问题 提高推理准确性与可解释性
Tree-of-Thoughts 树状多路径探索 复杂规划与决策问题 深度探索、多路径评估

通过以上认知架构和推理框架的应用,Agent能够更加清晰有效地规划和执行复杂任务,显著提升了生成模型在实际场景中的表现与实用性。

05.提升Agent性能的策略(Targeted Learning Methods)

在实际应用中,Agent的性能不仅取决于所采用的LLM和工具(Tools),还与我们如何针对性地对模型进行学习优化密切相关。提升Agent性能的关键在于采用恰当的学习策略(Targeted Learning Methods),具体包括以下三种方法:

1. 即时上下文学习(In-context Learning)

定义与特点:
即时上下文学习指的是在模型的prompt中,通过提供少量示例(examples)帮助Agent在运行时快速掌握任务或工具使用方法,而无需重新训练或微调模型。

关键优势:

  • 实施简单:无需额外训练或微调;
  • 快速见效:即时增强模型能力;
  • 适合快速迭代与实验。

适用场景:

  • 新工具快速接入;
  • 临时或实验性质的任务;
  • prompt长度允许包含少量有效示例的场景。

示例说明:

Prompt示例:
以下是调用天气API的示例:

示例输入: "上海今天天气如何?"
示例调用: 天气API(city="上海", date="今天")
示例输出: "上海今天是晴天,气温25度。"

用户输入: "北京明天天气怎么样?"

2. 检索增强即时学习(Retrieval-based In-context Learning,RAG)

定义与特点:
RAG 是一种基于外部知识检索的实时上下文增强方法。通过向量数据库或其他检索机制,实时检索相关知识或示例,动态加入Agent的prompt中,以帮助模型更精准地完成任务。

关键优势:

  • 实时性强:即时检索最新数据;
  • 知识边界扩展:超越模型原始知识限制;
  • 灵活性高:无需重新微调模型,即可接入大量外部知识。

适用场景:

  • 企业知识库问答;
  • 文档或实时数据查询;
  • 模型知识外的动态信息接入。

示例说明:

Prompt示例(动态检索):

用户输入: "介绍一下公司最新发布的产品X。"

[系统自动检索相关文档,并补充进prompt中]
检索内容: "产品X是本公司2025年最新发布的智能设备,具有高效节能、AI智能交互等特点..."

模型随后基于检索内容生成回答。

3. 微调学习(Fine-tuning Based Learning)

定义与特点:
微调学习指的是在基础模型(如GPT-4o、DeepSeek V3)的基础上,使用特定领域或任务的专属数据进行额外的训练,使模型更精准地适应特定任务或工具调用,改善模型效果。

关键优势:

  • 长期稳定:提供长期、稳定的性能提升;
  • 专业定制:高度适应特定业务场景或领域;
  • 更高的准确性:相较于即时上下文学习,精细调整模型权重能显著提升准确性。

适用场景:

  • 特定领域或垂直专业(如医疗、法律、金融);
  • 大规模稳定业务场景;
  • 对质量、准确性要求极高的任务。

示例说明:

  • 收集特定业务场景的大量问题-回答对(QA数据集);
  • 在预训练模型的基础上进行监督微调;
  • 部署微调后的模型提供Agent服务。

三种学习策略的对比总结:

学习策略 优势 局限性 适用场景
即时上下文学习(In-context) 快速有效、无需额外训练 prompt长度限制,少量示例 快速迭代、新工具接入
检索增强即时学习(RAG) 动态实时检索、扩展知识边界 需要额外维护数据检索系统 企业知识库、实时数据接入
微调学习(Fine-tuning) 效果稳定、准确性高 成本较高、时间周期较长 垂直领域、高精度场景

通过合理选择和组合上述三种学习方法,可以有效提高Agent在实际场景中的表现,帮助开发者更好地满足不同场景下的业务需求。

06.展望与挑战

未来发展趋势

当前,Agent技术正处于快速发展的早期阶段,未来将在以下方向拥有广泛的发展空间:

  • 多Agent协作(Multi-Agent Collaboration)

    • 多个Agent协同工作,共享信息与资源;
    • 更高效地完成复杂任务,如大型项目规划、复杂决策场景。
  • Agent链(Agent Chaining)与生态系统

    • 通过多个不同功能的Agent链式组合,实现更高层次的任务分解与规划;
    • 形成完整的Agent生态系统,提升整体应用能力。
  • 多模态Agent(Multimodal Agents)

    • 支持文本、图像、视频、音频等多种模态输入;
    • 更好地理解和响应真实世界的多样化任务。
  • 自主学习与自我改进(Self-learning & Improvement)

    • Agent具备主动学习能力,从用户反馈与环境交互中持续学习;
    • 减少人工干预,逐步优化性能与响应质量。

当前技术局限性与挑战

尽管Agent技术前景广阔,但当前也面临几个明显的局限性与实际挑战:

  • 成本与效率问题(Cost & Efficiency)

    • Agent基于大型语言模型(LLMs)运行,推理成本较高;
    • 多步推理与工具调用可能增加响应延迟。
  • 工具调用与编排复杂度(Tool Complexity)

    • 工具数量增加后,Agent选择合适工具的难度增大;
    • 工具调用失败时,Agent可能缺乏有效的故障恢复机制。
  • 信息安全与隐私风险(Security & Privacy Risks)

    • Agent调用外部API、访问敏感数据时可能产生安全风险;
    • 如何有效保护数据隐私与安全至关重要。
  • 可解释性与可控性(Explainability & Controllability)

    • Agent决策的内在逻辑可能不够透明,难以解释或调试;
    • 如何确保Agent行为可控、可靠,成为重要的研究课题。

07.实例解析

img

序列图:用户、客户端UI(Client side UI)、Agent、模型(Model)和外部API之间的交互流程

交互流程详解:

整个流程从左侧用户发起请求开始,逐步向右侧推进,再返回给用户:

① 用户输入请求:
  • 用户提出问题或请求,例如:

    “…ski trip…”(想查询滑雪旅行相关信息)

② 客户端UI接收请求:
  • 用户请求通过客户端界面(UI)传递给Agent进行下一步处理。
③ Agent处理与模型交互:
  • Agent收到请求后,向模型发送包含了Prompt(提示指令)和Examples(示例)的信息:

    Agent sends Prompt + Examples to Model

  • 模型基于接收到的Prompt和Examples,生成一个结构化的JSON输出,用于后续调用工具:

    Model uses Prompt + Examples to generate JSON output

④ 模型返回JSON给Agent:
  • 模型生成的JSON返回给Agent。JSON内明确指出需调用的函数或API,例如:

  • {"function":"display_cities", ...}
    
  • Agent将这个JSON结果返回给客户端UI,等待客户端执行API调用。

⑤ 客户端执行API调用:
  • 客户端(Client side)截获Agent返回的JSON指令,调用对应的外部工具API(Google Places API):

    Client Side intercepts JSON and makes API call to Google Places API

⑥ API执行与结果返回:
  • Google Places API收到调用请求后执行对应查询,返回所需的结果数据:

    Google Places API returns in expected format

  • 客户端UI接收到API返回的数据结果。

⑦ 客户端向用户展示最终响应:
  • 客户端UI将结果数据封装成易于理解的响应内容,返回给用户:

    “…here are some ski resorts w/images…”
    (这是一些滑雪度假村及相关图片信息)

08.总结

  • Agent定义与基本架构

    • Agent是一种自主应用程序,具备自主性、主动性、外部工具调用和内在推理决策能力;
    • 三大核心组件:模型(Model)、工具(Tools)和编排层(Orchestration Layer)。
  • Agent工具体系(Tools)

    • Extensions:Agent端直接调用外部API;
    • Functions:客户端执行API调用,Agent生成参数;
    • Data Stores:通过向量数据库实现实时数据检索与增强生成(RAG)。
  • 认知架构与推理框架(Reasoning Frameworks)

    • ReAct:通过Thought-Action-Observation循环实现实时工具调用;
    • Chain-of-Thought(CoT):通过显式推理步骤提升模型推理效果;
    • Tree-of-Thoughts(ToT):树状多路径推理结构,适合复杂规划任务。
  • 提升Agent性能的策略(Targeted Learning Methods)

    • 即时上下文学习(In-context Learning):快速简单的少量示例即时学习;
    • 检索增强即时学习(RAG):实时动态检索外部数据,扩展模型知识边界;
    • 微调学习(Fine-tuning):专属任务数据上的模型微调,提高长期稳定的性能表现。
  • 展望与局限性(Future Prospects & Limitations)

    • 未来趋势:多Agent协作、Agent链、多模态Agent、自主学习;
    • 当前挑战:成本效率、工具复杂度、安全隐私风险、可解释性与可控性。

LLM Agents | Prompt Engineering Guide

如何学习大模型 AI ?

我国在AI大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着Al技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国Al产业的创新步伐。加强人才培养,优化教育体系,国际合作并进,是破解困局、推动AI发展的关键。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

2025最新大模型学习路线

明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。

对于从来没有接触过AI大模型的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。

在这里插入图片描述

针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。

大模型经典PDF书籍

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路!

在这里插入图片描述

配套大模型项目实战

所有视频教程所涉及的实战项目和项目源码等
在这里插入图片描述

博主介绍+AI项目案例集锦

MoPaaS专注于Al技术能力建设与应用场景开发,与智学优课联合孵化,培养适合未来发展需求的技术性人才和应用型领袖。

在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

为什么要学习大模型?

2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

在这里插入图片描述

适合人群

  • 在校学生:包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础,有志于深入AGI大模型行业,希望开展相关的研究和开发工作。
  • IT行业从业人员:包括在职或失业者,涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验,至少1年以上的编程工作经验,对大模型技术感兴趣或有业务需求,希望通过课程提升自身在IT领域的竞争力。
  • IT管理及技术研究领域人员:包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势,主导技术创新,推动大模型技术在企业业务中的应用与改造。
  • 传统AI从业人员:包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作,现需要快速补充大模型技术能力,获得大模型训练微调的实操技能,以适应新的技术发展趋势。
    在这里插入图片描述

课程精彩瞬间

大模型核心原理与Prompt:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为Al应用开发打下坚实基础。

在这里插入图片描述

RAG应用开发工程:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。 在这里插入图片描述

Agent应用架构进阶实践:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
在这里插入图片描述

模型微调与私有化大模型:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。 在这里插入图片描述

顶尖师资,深耕AI大模型前沿技术

实战专家亲授,让你少走弯路
在这里插入图片描述

一对一学习规划,职业生涯指导

  • 真实商业项目实训
  • 大厂绿色直通车

人才库优秀学员参与真实商业项目实训

以商业交付标准作为学习标准,具备真实大模型项目实践操作经验可写入简历,支持项目背调

在这里插入图片描述
大厂绿色直通车,冲击行业高薪岗位
在这里插入图片描述

文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐