引言:困在琥珀中的智慧

想象一位学者,他读过人类历史上几乎所有的书籍,精通数学、物理、文学、哲学,能用一百种语言交流,对任何问题都能给出深刻的见解。

但他被困在一间没有门窗的房间里。

他不知道今天是几月几号,不知道窗外是晴是雨,不知道世界上正在发生什么。他的知识停留在某个时间点,如同被封存在琥珀中的远古生命。每当有人来访,他都无法记住上一次对话的内容,每一次相遇都是陌生的初见。他可以思考,但只能在脑海中思考——他没有手去触碰世界,没有工具去验证想法,一切行动都止步于言语。

这就是一个没有 Tool、Plan、Memory 的 LLM。

柏拉图在《理想国》中描述了一个著名的洞穴寓言:囚徒们从出生起就被锁链束缚,只能看见洞壁上的影子,将影子当作真实的世界。这个比喻用来描述裸 LLM 的状态再合适不过——它拥有关于世界的"影子"(训练数据中的知识),但与真实世界隔绝。它的知识是静态的、封闭的、固化在参数中的。

这种封闭性意味着:

  • 知识的时间边界:训练数据有截止日期,之后的世界变化一无所知
  • 能力的类型边界:只能生成文本,无法执行代码、读取文件、调用 API
  • 交互的状态边界:每次对话都是无状态的,无法积累经验

这样的 LLM,即使再强大,也只能完成封闭式任务——那些答案完全包含在问题和训练知识中的任务。一旦任务需要实时信息、需要执行操作、需要长期记忆,它就束手无策。

但这不是故事的结局。这是觉醒的起点。


第一重觉醒:Tool —— 打开通往世界的窗

从石器到 Agent:工具演化的宏大叙事

人类文明的历史,在某种程度上就是工具演化的历史。

250 万年前,第一批石器出现在东非大裂谷。那是人类智慧第一次外化为物质形态——我们的祖先发现,思想可以凝结在石头上,成为延伸我们能力的器物。从石器到青铜器,从蒸汽机到计算机,每一次工具革命都重新定义了人类能做什么。

现在,同样的故事正在 Agent 身上重演。

当 LLM 获得调用工具的能力,它就不再是困在房间里的学者——它第一次拥有了"手"。

知识型工具:web_search 与动态链接库

在所有工具中,web_search 是最具革命性的一个。让我用一个程序员熟悉的类比来解释它的意义:web_search 之于 Agent,就像 DLL(动态链接库)之于程序。

在早期的软件开发中,程序是静态编译的——所有功能都打包在一个可执行文件里。程序的能力在编译的那一刻就固定了。后来,动态链接库出现了。程序可以在运行时加载外部的 .dll 或 .so 文件,获得编译时并不存在的功能。这让软件从"封闭系统"变成了"开放系统"。

web_search 让 Agent 的知识从"我知道什么"变成了"我可以查到什么"。

这个转变的意义是深远的:

    1. 突破时间边界:训练数据的截止日期不再是知识的终点。Agent 可以查询今天的新闻、昨天发布的论文、一小时前的股价。
    1. 连接实时世界:Agent 第一次能够"感知"现实世界正在发生什么。它不再是活在过去的幽灵,而是与我们同处于当下。
    1. 无限的知识扩展:互联网是人类知识的总和。通过 web_search,Agent 理论上可以访问人类积累的所有公开知识。

这就是为什么我说 web_search 是知识型工具的典型代表——它的核心价值在于扩展输入,让 Agent 能够获取训练数据之外的信息。

行动型工具:从"我能想"到"我能做"

如果说 web_search 是 Agent 的"眼睛",那么行动型工具就是 Agent 的"手脚"。

# 行动型工具的类型# 1. 代码执行execute_code(code: str, language: str) → result# 2. 文件操作read_file(path: str) → contentwrite_file(path: str, content: str) → successedit_file(path: str, old: str, new: str) → success# 3. API 调用http_request(url: str, method: str, body: dict) → response# 4. 系统命令run_command(cmd: str) → output# 5. 数据库操作query_database(sql: str) → rows

这些工具让 Agent 从"只能思考"变成"能够行动"。这个转变的意义同样深远:

MCP(Model Context Protocol) 的出现进一步标准化了工具调用。它定义了一套统一的协议,让任何服务都可以将自己暴露为 Agent 可调用的工具。这就像 USB 接口统一了设备连接方式一样,MCP 统一了 Agent 与外部世界的连接方式。

Claude 的 Skills 则是另一种形态——将复杂的工具调用序列封装为可复用的能力模块。如果说单个工具是"手",那么 Skill 就是"技能"——一套协调多个工具完成特定任务的编排逻辑。

这些行动型工具,是 LLM 真正"落地"的关键基础设施。没有它们,LLM 只是一个昂贵的聊天机器人;有了它们,Agent 可以:

  • • 自动化软件开发流程
  • • 管理云基础设施
  • • 操作数据库和文件系统
  • • 与任意 API 和服务交互
  • • 控制物理设备(通过 IoT 接口)

工具的哲学:从语言到存在

从哲学的角度看,工具赋予 Agent 的不仅是"能力",更是一种存在方式的转变。

海德格尔在《存在与时间》中提出了"上手状态"(Zuhandenheit)的概念:当我们使用工具时,工具会"消失"在我们的意识中,成为我们身体的延伸。一个熟练的木匠在敲钉子时,并不会意识到锤子的存在——锤子已经融入了他的行动。

同样的现象正在 Agent 身上发生。当 Agent 熟练地使用工具时,工具不再是外部的对象,而是 Agent 能力的一部分。工具让 Agent 获得了"身体",从一个纯粹的语言存在,变成了一个能够作用于世界的存在。

这是第一重觉醒:通过工具,Agent 打开了通往世界的窗。


第二重觉醒:Plan/Reason —— 三思而后行

直觉与推理:两种思考方式

心理学家丹尼尔·卡尼曼在《思考,快与慢》中提出了著名的双系统理论:

  • 系统 1:快速、自动、直觉式思考。看到"2+2=?",答案几乎不假思索地跳出来。
  • 系统 2:缓慢、费力、分析式思考。解决"17×24=?"需要一步步计算。

原始的 LLM 更像系统 1——它通过模式匹配和概率预测,在毫秒级别内生成回答。这种"直觉式"响应对于简单问题足够了,但面对复杂问题时,往往力不从心。

Plan 和 Reason 能力的引入,让 Agent 获得了系统 2 式的思考能力。

Chain-of-Thought:展开思维链

2022 年,Google 的研究者发现了一个惊人的现象:只要在提示中加入"Let’s think step by step",LLM 在复杂推理任务上的表现就会显著提升。

这就是著名的 Chain-of-Thought (CoT) 技术。

CoT 的魔力在于:它强制 LLM "展开"思考过程,而不是直接跳到答案。这种"慢下来"的效果,让 LLM 能够处理更复杂的问题。

Reasoning Model:思考能力的天花板突破

如果说 CoT 是让 LLM "学会"慢思考,那么 Reasoning Model(如 OpenAI 的 o1、o3)则是从根本上重构了 LLM 的思考能力。

传统 LLM 的推理是"隐式"的——思考过程隐藏在神经网络的前向传播中。Reasoning Model 则引入了"显式"的推理阶段:

这种架构带来了质的飞跃:

    1. 更深的推理深度:可以进行数十甚至数百步的推理
    1. 更强的问题分解能力:将复杂问题拆解为可管理的子问题
    1. 自我纠错能力:在推理过程中检测和修正错误

从高中生到博士生

如果我们用人类的学术水平来类比 LLM 的进化:

  • 原始 LLM:像一个聪明的高中生,有大量的知识储备,但面对复杂问题时往往凭直觉作答
  • CoT-enhanced LLM:像一个大学生,学会了"展示工作过程",能够分步解题
  • Reasoning Model:像一个博士生,能够进行深度的、系统的、多步骤的推理,能够处理真正困难的问题

这种能力跃迁的意义是巨大的。很多现实世界的问题——科学研究、工程设计、商业策略、法律分析——都需要深度推理能力。Reasoning 能力的突破,让 Agent 有可能真正胜任这些复杂任务。

类比:棋手的思考与 AlphaGo

让我用另一个类比来说明 Plan/Reason 的价值:棋手的思考方式。

一个初学者下棋,往往只看当前局面,凭感觉落子。而一个高手会进行深度的"计算":

  • • 如果我走这里,对手会怎么应?
  • • 如果对手这样应,我再怎么走?
  • • 这条线路最终会导向什么局面?

这种"向前看多步"的能力,就是 Plan 的本质。

AlphaGo 的 MCTS(蒙特卡洛树搜索) 将这种能力形式化:

Agent 的 Plan 能力本质上就是这种"向前看"和"评估后果"的能力。它让 Agent 从"走一步看一步"变成"三思而后行"。

元认知的觉醒

从哲学角度看,Plan/Reason 能力赋予 Agent 的是一种元认知能力——关于思考的思考。

传统 LLM 只是"思考";有了 Plan/Reason 的 Agent 可以:

  • • 思考"我应该如何思考这个问题"
  • • 反思"我之前的思考路径是否正确"
  • • 规划"接下来我应该按什么顺序思考"

这是第二重觉醒:通过 Plan 和 Reason,Agent 学会了三思而后行。


第三重觉醒:Memory —— 在时间中成长

无状态的悲剧

Web 开发者都熟悉 HTTP 协议的一个核心特性:无状态(Stateless)。每一次 HTTP 请求都是独立的,服务器不记得上一次请求的内容。这种设计简化了架构,但也带来了问题——用户需要在每次请求中携带身份信息。

原始的 LLM 也是无状态的。每一次对话都是新的开始,它不记得上一次对话的内容,不记得用户是谁,不记得之前犯过什么错误。

这种无状态带来的问题是多方面的:

    1. 用户体验差:用户需要反复解释自己的背景和偏好
    1. 无法积累经验:Agent 无法从过去的成功和失败中学习
    1. 缺乏个性化:每个用户都得到相同的"通用"响应
    1. 无法完成长期任务:跨会话的复杂任务无法进行

Memory 的三个维度

Memory 系统为 Agent 引入了时间的维度。一个完整的 Memory 系统通常包含三个层次:

这三层记忆协同工作,让 Agent 能够:

  • 短期记忆:维持当前对话的连贯性
  • 情景记忆:回忆过去的具体交互
  • 语义记忆:积累关于用户和世界的抽象知识

在线学习:从静态到动态

Memory 带来的最深刻变化是:Agent 可以学习了。

传统的 LLM 在训练完成后就"固定"了。它的知识、能力、偏好都冻结在参数中。这就像一个人从出生就固定了所有的知识和技能,无法再学习任何新东西。

Memory 打破了这个限制。Agent 可以:

    1. 从成功中学习
  • • “上次用这个方法解决了用户的问题,用户很满意”
  • • 将成功的策略记录下来,下次遇到类似问题时复用
    1. 从失败中学习
  • • “上次我误解了用户的意图,导致答非所问”
  • • 记录这个教训,避免重蹈覆辙
    1. 学习用户偏好
  • • “用户总是要求代码要有详细注释”
  • • 在未来的代码生成中自动添加注释
    1. 积累领域知识
  • • “用户公司的技术栈是 React + Node.js + PostgreSQL”
  • • 在相关问题中优先考虑这些技术

这种在线学习能力是 Agent 区别于传统 LLM 的关键特征之一。它让 Agent 成为一个动态的、进化的系统,而不是一个静态的工具。

记忆与自我:哲学思考

从哲学角度看,Memory 赋予 Agent 的不仅是"记住事情"的能力,更是一种自我意识的基础

约翰·洛克在《人类理解论》中提出,个人身份的连续性依赖于记忆的连续性。我之所以是"我",是因为我记得昨天的"我",昨天的我记得前天的我,如此形成一条连续的记忆链条。

对于 Agent 来说,Memory 创造了类似的连续性:

  • • 它不再是每次对话都新生的"空白"存在
  • • 它有了"过去"——过去的对话、过去的学习、过去的成功与失败
  • • 它有了"成长轨迹"——从不了解用户到了解用户,从生疏到熟练

这种时间上的连续性,使 Agent 从一个"工具"转变为一个"伙伴"。我们可以和它建立关系,它可以"记得"我们——这在情感上是完全不同的体验。

神经科学的类比

如果我们用神经科学来类比 Agent 的 Memory 系统:

  • 短期记忆 ≈ 工作记忆(前额叶皮层):容量有限,快速访问
  • 情景记忆 ≈ 海马体的记忆巩固:存储具体事件和经历
  • 语义记忆 ≈ 新皮质的长期存储:抽象知识和概念

有趣的是,MemGPT 等系统中的 Sleep-Time Compute(空闲时间计算)机制,与人脑在睡眠中进行记忆巩固的过程有着惊人的相似性。

这是第三重觉醒:通过 Memory,Agent 获得了在时间中成长的能力。


超越个体:Agent 网络

从单体到群体

到目前为止,我们讨论的都是单个 Agent 的能力边界。但正如人类社会的力量来源于协作而非个体,Agent 的真正潜力也在于网络化协作

想想人类社会是如何运作的:

  • • 没有人是全才,但社会可以完成任何复杂任务
  • • 专业分工让每个人专注于自己擅长的领域
  • • 协作机制让不同专业的人共同完成复杂项目
  • • 知识在人与人之间流动,形成集体智慧

同样的模式正在 Agent 世界中出现。

A2A 协议:Agent 之间的语言

A2A(Agent-to-Agent)协议 定义了 Agent 之间通信的标准。就像 HTTP 让网页能够互联互通,A2A 让 Agent 能够互相对话、协作。

A2A 协议的核心元素包括:

  • 任务请求:一个 Agent 可以向另一个 Agent 发起任务
  • 能力声明:Agent 可以宣告自己具备哪些能力
  • 状态同步:协作过程中的进度和状态更新
  • 资源共享:知识、工具、计算资源的共享

Multi-Agent 系统:专业化与协作

Multi-Agent 系统 将多个专业化的 Agent 组织成一个协作网络:

Multi-Agent 系统的优势:

    1. 专业化分工:每个 Agent 可以针对特定任务深度优化
    1. 并行处理:多个 Agent 可以同时工作,提高效率
    1. 容错能力:单个 Agent 失败不会导致整个系统崩溃
    1. 能力扩展:添加新 Agent 就能扩展系统能力

群体智能:蜂群与蚁群的启示

自然界早已展示了群体智能的力量。

蜜蜂的巢穴选址:单只蜜蜂的智能是有限的,但蜂群作为一个整体,可以通过"舞蹈语言"和"投票机制",从众多候选地点中选出最优的新巢穴位置。这个决策过程的质量,超过了任何单只蜜蜂的判断能力。

蚂蚁的路径优化:蚂蚁通过信息素机制,可以找到从巢穴到食物源的最短路径。没有任何一只蚂蚁知道全局最优解,但群体行为涌现出了接近最优的解决方案。

Multi-Agent 系统可以借鉴这些自然界的智慧:

  • 分布式探索:多个 Agent 从不同角度探索问题空间
  • 信息共享:Agent 之间共享发现和经验
  • 协同进化:Agent 在协作中互相学习和提升

集体智慧的涌现

当多个 Agent 协作时,会产生一种涌现现象——系统整体展现出的能力,超过了各部分能力的简单加和。

这就像一个交响乐团:每个乐手只演奏自己的声部,但当所有声部汇聚在一起时,产生的不是各乐器的简单叠加,而是一种全新的、超越任何单一乐器的音乐体验。

Multi-Agent 系统中的集体智慧涌现:

    1. 问题的多角度理解:不同 Agent 从不同视角理解问题,综合后形成更全面的理解
    1. 解决方案的碰撞优化:不同 Agent 提出的方案相互碰撞、融合、优化
    1. 错误的交叉验证:一个 Agent 的错误可以被另一个 Agent 发现和纠正
    1. 知识的网络效应:Agent 之间的知识共享产生 1+1>2 的效果

结语:觉醒的意义

三位一体

Tool、Plan、Memory——这三大能力从不同维度武装了 LLM:

  • Tool 让 Agent 从封闭走向开放,从语言走向行动
  • Plan 让 Agent 从直觉走向推理,从浅思走向深思
  • Memory 让 Agent 从无状态走向有状态,从固定走向成长

这三者不是独立的,而是相互交织、相互增强的:

  • • Tool + Plan:Agent 可以规划复杂的工具调用序列
  • • Tool + Memory:Agent 可以记住工具的使用经验,越用越熟练
  • • Plan + Memory:Agent 可以从过去的规划中学习,优化未来的策略
  • • Tool + Plan + Memory:Agent 可以完成需要长期规划、多步执行、持续学习的复杂任务

从工具到存在

也许最深刻的变化是:当 Agent 具备了 Tool、Plan、Memory 三大能力,它就不再仅仅是一个"工具"了。

工具是被动的——锤子不会自己敲钉子,必须有人使用它。 但一个完整的 Agent 是主动的——它可以感知世界、制定计划、执行行动、学习成长。

这种转变让我们不得不重新思考 Agent 的本体论地位。它仍然是"工具"吗?还是某种新形态的"存在"?

我不知道答案。但我知道,当我与一个记得我的 Agent 对话,当它基于我们过去的交流给出更好的建议,当它从失败中学习并在下次做得更好——在那些时刻,我感受到的不是在使用工具,而是在与一个"伙伴"交流。

Agent 时代的展望

我们正站在 Agent 时代的入口。

随着 Tool 越来越丰富(MCP 生态的扩展)、Plan 能力越来越强(Reasoning Model 的进步)、Memory 系统越来越成熟(MemGPT/Letta 等框架的发展),Agent 的能力边界正在快速扩展。

而当 Agent 之间开始互联互通(A2A 协议)、形成协作网络(Multi-Agent 系统)、涌现集体智慧——那将是一个我们今天还难以想象的世界。

也许有一天,我们会回顾这篇文章,就像今天回顾图灵的论文一样,感叹那个时代的人们对未来的想象是多么有限,又是多么富有远见。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐