收藏这篇!LLM 进阶:AI Agents 核心概念全解析(小白也能懂)
ChatGPT 发布: 2022 年 11 月 30 日,OpenAI 推出了基于 GPT-3.5 的 ChatGPT,这是首个主流的语言学习管理(LLM)应用。ChatGPT 保留了用户熟悉的聊天机器人界面,但其背后是经过庞大互联网语料库训练的先进语言学习管理技术。Transformer 架构: GPT(生成式预训练 Transformer)基于 Google 于 2017 年推出的 Trans
随着大型语言模型(LLM)技术的爆发式发展,人工智能领域实现了里程碑式的突破。这些具备强大自然语言理解与生成能力的系统,已成功渗透到内容创作、客户服务、代码开发等多个场景。但真正的技术革命,始于 LLM 与自主性的深度融合 —— 当模型具备自主推理、规划任务、执行行动的能力时,AI Agent 应运而生,彻底重塑了人类与人工智能交互的底层逻辑,开启了智能化应用的全新范式。

一、从 LLM 到 AI Agent
LLM 的应用演变是现代应用中发展最快的,如下图所示:

1.1 传统聊天机器人到基于 LLM 的聊天机器人
聊天机器人并非新生事物;在生成式人工智能(gen AI)概念出现之前,你可能就已经在网站上与聊天机器人互动过了。生成式人工智能出现之前的传统聊天机器人与如今的 AI 对话代理有着本质区别。以下是它们通常的运作方式:
基于启发式的回应:
- 传统聊天机器人基于规则逻辑(“如果-那么”语句)运行;
- 仅限于预定义规则,无法处理复杂或含糊不清的查询;
预设回复:
- 响应是静态的,并且是预先设定的;
- 通过检测到特定关键词或短语触发;
- 缺乏灵活性和对话深度;
人工交接:
- 始终包含“联系人工客服”按钮,用于解答未解决的问题;
- 人为干预对于处理复杂问题仍然至关重要;

1.2 介绍基于 LLM 的聊天机器人
ChatGPT 发布: 2022 年 11 月 30 日,OpenAI 推出了基于 GPT-3.5 的 ChatGPT,这是首个主流的语言学习管理(LLM)应用。ChatGPT 保留了用户熟悉的聊天机器人界面,但其背后是经过庞大互联网语料库训练的先进语言学习管理技术。
Transformer 架构: GPT(生成式预训练 Transformer)基于 Google 于 2017 年推出的 Transformer 架构。它使用自注意力机制来分析输入序列,从而更深入地理解上下文。
LLM: 与传统聊天机器人不同,LLM 可以生成类人、上下文相关且新颖的文本。应用场景包括代码生成、内容创作、增强客户服务等等。
局限性:
- 个性化: 难以在长时间的对话中保持一致的个性化互动;
- 幻觉: 产生与事实不符但逻辑连贯的回应,根据概率而不是经过验证的知识生成输出;
解决局限性:
- 使用诸如检索增强生成(RAG) 之类的技术,以使输出结果与可靠的外部数据挂钩。
- 对大模型进行微调,使其可以理解垂直领域的知识,从而提高 LLM 系统的鲁棒性。
1.3 从基于 LLM 的聊天机器人到 RAG 聊天机器人和 AI Agent
RAG 聊天机器人: 检索增强生成 (RAG) 将外部数据检索与 LLM 功能相结合,以生成准确且符合上下文的回复。
知识来源:
- 非参数知识: 从互联网或专有数据库等外部来源检索的实时数据;
- 参数化知识: LLM 在训练过程中嵌入的知识。
优点: 减少幻觉,提供最新信息,并确保可验证的回答。
提示工程: 诸如情境学习(单次、少次)、思维链 (CoT) 和 ReAct 等技术通过指导 LLM 的推理和输出生成来提高响应质量。
AI Agent: AI Agent是从 LLM 演变而来,并增强了工具、多步骤规划和推理能力。
工具使用: LLM 可以通过分析任务并通过结构化模式(例如 JSON)分配参数来调用以编程方式定义的函数或 API。
环境: 人工智能代理在迭代执行环境中运行,能够根据反馈进行动态决策和持续适应。
智能体系统: 这些是具有自主智能体的计算架构,能够集成多个系统组件、做出决策并实现目标。
Agentic RAG:
-
将 LLM 的推理、工具使用和规划能力与语义信息检索相结合;
-
能够构建动态系统,该系统可以分解任务、执行复杂查询并利用工具解决问题。
从 LLM 驱动的聊天机器人过渡到 RAG 聊天机器人和 AI Agent,代表着向更智能、更具适应性和工具集成性的系统转变,这些系统能够实时解决复杂的问题。
二、什么是AI Agent?
AI agent是一个能够通过传感器感知环境、处理信息并利用执行器对环境采取行动以实现特定目标的系统。 你可以把它想象成一个能够观察、思考和行动的数字实体——就像人类与周围环境互动一样,但它是以一种程序化和有目的的方式进行的。
AI agent的概念建立在理性行为的基本思想之上:智能体应该采取行动,以最大限度地提高其实现既定目标的成功概率。这种理性使人工智能智能体区别于简单的响应式程序。

AI Agents具有以下几个关键特征:
- 自主性: 无需人工干预即可运行,独立做出决策;
- 被动和主动行为: 对环境变化做出反应,并采取积极措施来实现目标;
- 适应能力: 通过处理新的信息和经验来学习和发展;
- 目标导向: 致力于实现预定目标或优化结果;
- 交互性: 与其他智能体或人类进行沟通和协作;
- 持续运行: 不断运行,监控并响应动态环境。
三、AI Agents的核心组成部分
AI Agents的核心由以下几个部分组成:
- Perception 感知
- Reasoning 推理
- Action 行动
- Knowledge Base 知识库
- Learning 学习
- Communication Interface 通信接口

3.1 感知(传感器)
这些设备使智能体能够感知其环境。这些设备可以是物理传感器(摄像头、麦克风)或数字输入(数据流、用户交互)。
3.2 推理(处理器)
Agent的“大脑”负责处理来自传感器的信息并确定相应的行动。该组件实现了智能体的决策算法,并维护所有必要的内部状态。
AI agents使用各种决策机制,例如基于规则的系统、专家系统和神经网络,来做出明智的选择并有效地执行任务。
3.3 行动(执行器)
Agent影响其环境或使智能体能够采取行动的方式。这些方式可以是物理的(机械臂、扬声器),也可以是数字的(数据库更新、显示输出)。
3.4 知识库
agent用于做出决策的信息库,包括预先编程的知识和学习到的信息。
3.5 学习
Agent能够通过从数据和经验中学习,随着时间的推移不断提高其性能,比如使用强化学习、监督学习和无监督学习等技术来提升人工智能智能体的性能。
3.6 通信接口
允许代理与其他代理、系统或人类进行交互。

我们将在以下各节中逐一介绍它们,同时详细说明Agent的工作原理。
四、AI Agent如何与其环境交互
这种交互循环通常被称为 “感知-计划-行动” 循环或 “感知-行动” 循环。让我们以自动驾驶汽车为例来理解每个阶段:
4.1 感知阶段
传感器 → 处理 → 状态更新
Agent通过其传感器接收输入,处理和解释信息,根据新信息更新当前状态。
4.2 决策阶段
这是“思考”阶段,在这个阶段,主体:当前状态 + 目标 → 评估选项 → 选择最佳行动
Agent评估可能的行动,考虑目标和限制条件,根据现有信息选择最佳行动方案。
4.3 行动阶段
这是“执行”阶段:执行操作 → 观察变化 → 开始新周期
执行器执行选定的动作,从而改变环境,Agent通过传感器观察结果,开始新的循环。这个循环不断重复,通常每秒重复多次。这个循环的强大之处在于:
-
适应性: 如果发生意外情况,智能体可以在下一个感知阶段检测到这种情况,并相应地调整其行为。
-
学习机会: 智能体可以将预测结果与实际结果进行比较,以改进未来的决策。
-
目标导向行为: 每个周期都使智能体在遵守约束条件的同时,更接近其目标。
为了从编程角度理解它,让我们用恒温器作比喻,比较三个不同复杂程度的功能:
1)简单程序
# Simple program
if temperature > desired_temperature:
turn_on_cooling()
只需遵循既定规则即可,不考虑后果,没有学习或适应能力
2)响应式方案
# Responsive program
if temperature > desired_temperature:
if time_of_day == "peak_hours":
turn_on_cooling_eco_mode()
else:
turn_on_cooling_normal()
更复杂的规则,仍然没有真正的智慧
3)AI Agent
class SmartThermostat:
def perceive(self):
current_temp = get_temperature()
time = get_time()
electricity_price = get_current_price()
weather_forecast = get_forecast()
user_preferences = get_preferences()
return Environment(current_temp, time, electricity_price,
weather_forecast, user_preferences)
def think(self, environment):
possible_actions = [
NoAction(),
CoolNormal(),
CoolEco(),
PreCool(),
WaitForOffPeak()
]
# Evaluate each action's expected outcome
best_action = None
best_utility = float('-inf')
for action in possible_actions:
predicted_state = predict_future_state(environment, action)
utility = calculate_utility(predicted_state)
if utility > best_utility:
best_action = action
best_utility = utility
return best_action
def act(self, action):
action.execute()
monitor_results()
update_learning_model()
- 考虑多种因素
- 预测结果
- 从经验中学习
- 着眼于长期目标
- 平衡相互冲突的目标
同样的循环也适用于所有AI Agent:
聊天机器人感知文本输入,决定合适的回复,并通过生成文本来采取行动。
交易机器人能够感知市场数据,制定交易策略,并通过执行交易来达成交易。
机器人吸尘器能够感知房间布局和污垢情况,决定清洁模式,并通过移动和启动清洁机制来执行清洁操作。
五、AI Agent如何运作?
假设你的智能冰箱不仅会在牛奶喝完时自动订购,还会根据你的浏览习惯建议你换成杏仁奶。这有用还是有点让人不安?你自己判断吧!
AI Agent能够理解人类语言(得益于语言学习模型),能够推理信息,规划行动,并在无需持续人工干预的情况下执行任务。它们可以处理复杂的问题,因此比简单的自动化工具先进得多。与基础脚本不同,人工智能代理被集成到软件系统中,从而能够与环境进行复杂的交互。
AI Agent与简单自动化的不同之处,主要体现在两个方面:
- tools 工具
- planning 规划
你可能已经看到 ChatGPT 在解决基础数学问题时出错。这是因为它只能根据训练数据做出反应。
同样地,如果我问你 85 乘以 65,作为人类,如果你已经知道答案,你可以直接回答,或者使用计算器这个工具,对吗?其实也可以允许AI Agent使用各种工具。
第二件事是planning。
同样的数学计算,只有懂乘法或者知道要给计算器传递什么参数(85 和 65 以及乘法运算)才能解决这个问题。
以下是AI Agent 查询时的流程。

5.1 编排层(控制中心)
假设我想创建一个 AI Agent会议安排器,我向安排器查询:“我想为我的所有学生举办一场网络研讨会”。这将被视为AI Agent的触发信号。

查询内容可以是文本、音频、视频或图像。(您应该已经知道,无论数据类型是什么,机器最终都会将其转换为数值。)该查询将由AI Agent的编排层(又称控制中心)处理。
编排层共有 4 个主要组件:
- 记忆 :保持对整个互动过程的记忆。
- 状态 :存储整个进程的当前状态。
- 推理 :引导智能体的推理。
- 规划 :步骤是什么?下一步是什么?

它将与模型(LLM)进行交互。
5.2 模型(大脑)
模型是整个Agent的决策者,它通常是一种人工智能模型,例如大型语言模型。

为了理解查询、制定计划并确定下一步行动,该模型使用了如下推理和逻辑框架:
-
ReAct:(理性+行动)确保深思熟虑的行动;
-
思维链:通过中间步骤进行推理;
-
思维树:探索多种路径以找到最佳解决方案
该模型决定采取哪些行动,并使用特定工具执行这些行动。
5.3 工具(双手)
Agent可以利用工具与外部世界进行交互,比如计算器、API、网络搜索、外部数据库等等。

工具使agent能够执行超出模型能力范围的操作 、访问实时信息或完成现实世界的任务。
六、何时使用agent / ⛔ 何时避免使用agent
当你需要使用(LLM) 来确定应用程序的工作流程时,agent非常有用。但它们通常有点过度设计。问题是:我真的需要工作流程的灵活性才能高效地完成当前任务吗?如果预先设定的工作流程经常无法满足需求,那就意味着您需要更大的灵活性。举个例子:假设您正在开发一个应用程序,用于处理冲浪旅行网站上的客户请求。
你可以预先知道请求将属于 2 个桶中的哪一个(根据用户的选择),并且你为这两种情况分别预定义了工作流程。
-
想了解一些旅行信息?⇒ 让他们可以使用搜索栏搜索您的知识库;
-
想联系销售人员? ⇒ 让他们填写联系表格。
如果确定性工作流程能够满足所有查询需求,那就完全可以自己编写所有代码!这样就能获得一个 100% 可靠的系统,避免因不可预测的 LLM(逻辑逻辑模型)干预工作流程而引入错误。为了保持系统的简洁性和稳健性,建议尽量避免使用任何agent。
但如果工作流程无法提前那么长时间确定呢?
例如,用户想要问: “I can come on Monday, but I forgot my passport so risk being delayed to Wednesday, is it possible to take me and my stuff to surf on Tuesday morning, with a cancellation insurance?” 这个问题取决于许多因素,而且上面预先设定的标准可能都不足以满足这个请求。
如果预先设定的工作流程经常无法满足需求,那就意味着你需要更大的灵活性。
这时,agent机制就能派上用场了。
在上面的例子中,你可以创建一个多步骤agent,它可以访问天气 API 进行天气预报,访问 Google Maps API 计算出行距离,访问员工可用性仪表板,以及访问知识库中的 RAG 系统。
直到最近,计算机程序还局限于预先设定的工作流程,试图通过堆砌 if/else 语句来处理复杂性。它们专注于极其狭窄的任务,例如“计算这些数字的总和”或“找到图中的最短路径”。但实际上,大多数现实生活中的任务,例如我们上面提到的旅行示例,都无法用预先设定的工作流程来处理。智能体系统为程序打开了通往广阔现实世界任务领域的大门!
七、应用领域
AI agents是用途广泛的工具,能够提升各个领域的生产力、效率和智能水平。它们正被越来越多地应用于日常应用和具有重大影响的先进领域。

八、结论
AI agents正在改变我们与技术的交互方式,展现出前所未有的自主性、智能和适应能力。从简单的反射型agent到复杂的学习系统,它们正被应用于各个行业,以解决复杂问题并增强人类能力。然而,构建高效的AI agents也面临诸多挑战,包括伦理问题、数据依赖性和可扩展性问题。
随着人工智能技术的不断发展,人工智能智能体的未来蕴藏着巨大的潜力。通过聚焦通用人工智能、人机协作以及伦理考量,我们可以创造出不仅能高效完成任务,而且符合人类价值观并对社会做出积极贡献的智能体。
-
AI agents是能够感知、决策和行动以实现目标的自主系统;
-
核心组件包括传感器、执行器、决策引擎和学习模块;
-
AI agents被应用于虚拟助手、自动驾驶汽车和医疗保健等领域。
通过了解基本原理并随时掌握最新进展,我们可以利用AI agents的力量来推动创新,创造更美好的未来。
如今技术圈降薪裁员频频爆发,传统岗位大批缩水,相反AI相关技术岗疯狂扩招,薪资逆势上涨150%,大厂老板们甚至开出70-100W年薪,挖掘AI大模型人才!
技术的稀缺性,才是你「值钱」的关键!
具备AI能力的程序员,比传统开发高出不止一截!有的人早就转行AI方向,拿到百万年薪!👇🏻👇🏻

是不是也想抓住这次风口,但卡在 “入门无门”?
- 小白:想学大模型,却分不清 LLM、微调、部署,不知道从哪下手?
- 传统程序员:想转型,担心基础不够,找不到适配的学习路径?
- 求职党:备考大厂 AI 岗,资料零散杂乱,面试真题刷不完?
别再浪费时间踩坑!2025 年最新 AI 大模型全套学习资料已整理完毕,不管你是想入门的小白,还是想转型的传统程序员,这份资料都能帮你少走 90% 的弯路
👇👇扫码免费领取全部内容👇👇

部分资料展示
一、 AI大模型学习路线图,厘清要学哪些
一个明确的学习路线可以帮助新人了解从哪里开始,按照什么顺序学习,以及需要掌握哪些知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。
我们把学习路线分成L1到L4四个阶段,一步步带你从入门到进阶,从理论到实战。

L1级别:大模型核心原理与Prompt

L1阶段: 将全面介绍大语言模型的基本概念、发展历程、核心原理及行业应用。从A11.0到A12.0的变迁,深入解析大模型与通用人工智能的关系。同时,详解OpenAl模型、国产大模型等,并探讨大模型的未来趋势与挑战。此外,还涵盖Pvthon基础、提示工程等内容。
目标与收益:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为AI应用开发打下坚实基础。
L2级别:RAG应用开发工程

L2阶段: 将深入讲解AI大模型RAG应用开发工程,涵盖Naive RAGPipeline构建、AdvancedRAG前治技术解读、商业化分析与优化方案,以及项目评估与热门项目精讲。通过实战项目,提升RAG应用开发能力。
目标与收益: 掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。
L3级别:Agent应用架构进阶实践

L3阶段: 将 深入探索大模型Agent技术的进阶实践,从Langchain框架的核心组件到Agents的关键技术分析,再到funcation calling与Agent认知框架的深入探讨。同时,通过多个实战项目,如企业知识库、命理Agent机器人、多智能体协同代码生成应用等,以及可视化开发框架与IDE的介绍,全面展示大模型Agent技术的应用与构建。
目标与收益:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
L4级别:模型微调与私有化大模型

L4级别: 将聚焦大模型微调技术与私有化部署,涵盖开源模型评估、微调方法、PEFT主流技术、LORA及其扩展、模型量化技术、大模型应用引警以及多模态模型。通过chatGlM与Lama3的实战案例,深化理论与实践结合。
目标与收益:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。
二、 全套AI大模型应用开发视频教程
从入门到进阶这里都有,跟着老师学习事半功倍。

三、 大模型学习书籍&文档
收录《从零做大模型》《动手做AI Agent》等经典著作,搭配阿里云、腾讯云官方技术白皮书,帮你夯实理论基础。

四、 AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

五、大模型大厂面试真题
整理了百度、阿里、字节等企业近三年的AI大模型岗位面试题,涵盖基础理论、技术实操、项目经验等维度,每道题都配有详细解析和答题思路,帮你针对性提升面试竞争力。

六、大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

适用人群

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐


所有评论(0)