【收藏学习】LLM Agent实战指南:超越传统LLM的智能体架构与实现方法
要理解什么是 LLM Agent,首先我们需要回顾一下 LLM 的基本功能。传统上,LLM 的工作方式是通过预测下一个词元(token)实现的。在生成多个词元的过程中,模型逐步扩展输入内容,从而模拟对话,生成更长且更连贯的回应。然而,随着对话的进行,LLM 的一个主要缺点逐渐显现——它无法记住之前的对话内容!除了记忆缺失的问题外,LLM 在执行一些看似简单的常见任务时也经常犯错。例如,基础的数学运
本文详解LLM Agent三大核心组件:记忆模块(短期与长期记忆)、工具使用(Toolformer与MCP)及规划能力(ReAct与Reflexion)。还探讨多智能体协作框架,包括生成式智能体、AutoGen、MetaGPT和CAMEL等,展示如何通过专门化智能体协同解决复杂问题。LLM Agent通过这些组件突破传统LLM局限,实现更自主的复杂任务处理能力。

1、 什么是 LLM Agent?
要理解什么是 LLM Agent,首先我们需要回顾一下 LLM 的基本功能。

传统上,LLM 的工作方式是通过预测下一个词元(token)实现的。在生成多个词元的过程中,模型逐步扩展输入内容,从而模拟对话,生成更长且更连贯的回应。

然而,随着对话的进行,LLM 的一个主要缺点逐渐显现——它无法记住之前的对话内容!

除了记忆缺失的问题外,LLM 在执行一些看似简单的常见任务时也经常犯错。例如,基础的数学运算如乘法和除法都可能出错。

然而,这并不意味着 LLM 无法胜任这些任务。我们可以通过引入外部工具、记忆模块以及检索系统来增强其能力。Anthropic 将这种增强后的模型称为增强型 LLM(Augmented LLM)。

在遇到数学问题时,增强型 LLM 可以智能地识别问题类型,选择使用合适的工具(例如计算器)进行精确计算,从而避免了之前常见的计算错误。

那么,增强型 LLM 是否可以被视为一个智能体(Agent)呢?虽然它不完全符合传统定义中的智能体标准,但从某些角度看,它确实拥有一些类似智能体的特性。这里,引用 Russell 和 Norvig 在《AI: A Modern Approach》一书中对智能体的定义:
智能体是能够通过传感器感知环境,并通过执行器对环境进行行动的实体。Russell & Norvig, AI: A Modern Approach (2016)
根据这个定义,智能体与环境的互动通常包含以下几个重要部分:
- Environment(环境): 智能体所处并与之交互的世界。
- Sensors(传感器): 智能体用来感知环境的设备。
- Actuators(执行器): 智能体用来作用于环境的工具。
- Effectors(效应器): 智能体的"大脑",根据感知做出决策并采取相应行动。

这个框架适用于各种形式的智能体,不论是具备物理传感器与现实世界互动的机器人,还是在软件环境中运行的 AI 智能体。
我们可以对这一框架进行适度扩展,从而让增强型 LLM 完全满足智能体的特征,进而形成 LLM Agent。

具体而言,LLM Agent 通过文本形式获取环境信息,完成感知过程,并通过使用工具(例如执行网页搜索)对环境进行操作。
为了决定下一步的行动,LLM Agent 通常还需要一个关键模块:规划能力。为了获得规划能力,LLM Agent 通常会采用推理和思考的方法,例如链式思维(Chain-of-Thought)等技术。

通过推理和思考过程,LLM Agent 可以制定出下一步行动计划。

凭借规划能力,LLM Agent 能够理解当前情况,进而制定行动方案,利用工具执行任务,并通过记忆模块记录已执行的操作。

根据系统设计的不同,LLM Agent 的自主性可能有所不同。通常,LLM Agent 自主决策的范围越广,越符合智能体的定义。

接下来,本文将围绕 LLM Agent 的三个关键部分——记忆、工具和规划,逐一介绍如何使 LLM 实现自主行为。
2、 记忆
传统 LLM 本身是没有记忆的系统,在与其交互的过程中,模型并不会主动记住先前发生的事情。举个例子,当你问传统 LLM 一个问题,然后紧接着又问了第二个问题,它通常并不会记得第一个问题的内容。

我们通常把只能记住当前对话上下文的能力称为短期记忆(也叫工作记忆)。短期记忆相当于一个缓冲区,用来暂存最近的对话内容,包括 LLM Agent 刚刚执行过的操作等。但这种有限的记忆容量很快就会成为瓶颈,因为 LLM Agent 往往需要跟踪记录的不仅是最近的内容,可能是几十个操作或环节的上下文。

这时就凸显出长期记忆的重要性。因为 LLM Agent 在复杂任务中可能需要执行数十甚至上百个连续步骤,这些累积的信息和经验都需要被有效地保存和利用。

下面我们来探讨几种让 LLM Agent 拥有记忆的方法。
2.1 短期记忆
为 LLM Agent 提供短期记忆,最直接的方法就是利用模型的上下文窗口(context window),也就是 LLM 能处理的最大文本长度。

如今,大多数 LLM 的上下文窗口至少有 8192 个词元(token),有的甚至可以扩展到几十万个词元!我们可以利用这么大的上下文窗口,在提示中附加上完整的对话历史,从而让模型记住之前说过的话。

只要对话历史没有超出 LLM 的上下文窗口,这种方法就能很好地运行,可以视作模拟记忆的一种简单方式。不过需要注意,这并非真正让 LLM 学会了记忆,而是一种伪记忆机制。本质上,我们只是每次在对话中重新告诉 LLM 之前都说了什么,模型本身并没有真正将对话内容进行存储。
当遇到 LLM 上下文窗口有限,或者对话历史过长无法全部容纳的情况时,我们需要采用更加巧妙的策略。一种有效的解决方案是:使用另一个 LLM 来总结目前为止的对话内容。通过不断对对话进行摘要压缩,我们可以将需要提供给 LLM 的文本长度保持在窗口大小之内。这种方式既减少了需要传递的词元数量,又能够保留对话中最重要的信息。

2.2 长期记忆
LLM Agent 的长期记忆指的是需要长时间保留的过去交互和行动信息。一个常见的做法是,将所有先前的交互、操作和对话内容存储在一个外部的向量数据库中。
具体来说,我们会将对话内容转换成能够表示其含义的数值向量(embedding),并存入数据库。然后,当有新的输入时,我们也把这个提示转换成向量,与数据库中的向量逐一比较,检索出最相关的内容提供给模型。这种方法通常被称为“检索增强生成”(Retrieval-Augmented Generation,简称 RAG)。

长期记忆不仅限于当前对话的上下文,还涉及跨会话的信息保留。例如,LLM Agent 可能需要记住在某些独立会话中所做的研究或收集到的知识。为了有效地管理这些信息,LLM Agent 可以将不同类型的信息存储在不同的记忆模块中。
在心理学中,记忆通常被划分为多个类别,针对 LLM Agent 的设计,我们可以借鉴这些分类。尤其在《Cognitive Architectures for Language Agents》的研究中,作者提出了四种主要的记忆类型,并将这些概念嫁接到了 LLM Agent 的架构中。这种分类方法有助于我们更加系统地设计智能体的记忆功能。
- 工作记忆(Working Memory): 工作记忆是用于存储当前会话中的信息,包含了最近的对话内容以及 LLM Agent 刚刚执行的操作等。它类似于一个缓冲区,用来处理和操作眼前的任务。工作记忆的容量较小,通常只保留当前最相关的信息。
- 程序性记忆(Procedural Memory): 程序性记忆是存储智能体在过去会话中学到的技能、方法或操作策略。例如,如果 LLM Agent 学会了如何使用某个工具或解决某类问题,这些知识就会存储在程序性记忆中。这种记忆帮助智能体更有效地完成任务并提升处理效率。
- 语义记忆(Semantic Memory): 语义记忆用于存储世界知识的事实和概念。它包含了智能体对外部世界的理解,例如历史事实、科学知识、语言规则等。这些信息通常不会随着时间的推移而改变,适合长期存储。
- 情景记忆(Episodic Memory): 情景记忆是存储具体事件或对话历史的记忆,类似于人类的生活经历。它包含了某一时刻或特定情境下的具体细节。例如,智能体可能会记得某次与用户的对话或某个特定任务的处理过程,甚至是用户的偏好和行为模式。这种记忆有助于智能体在未来的交互中做出更加个性化的响应。
通过这种记忆类型的划分,LLM Agent 能够在多个层次上管理和处理信息,从而实现更加智能和高效的工作方式。

3、工具
工具允许 LLM Agent 与外部环境进行交互(比如查询数据库),或者使用外部的应用程序(比如执行一段自定义代码)。

一般来说,工具的用途大致可以分为两类:其一是获取数据,以便检索最新的知识信息;其二是执行操作,例如帮我们创建日程或在网上订外卖。
但让 LLM 真正掌握工具使用并非易事,关键在于要让它生成符合特定工具 API 要求的精确文本输出。在实际应用中,我们通常希望 LLM 的输出是结构化的 JSON 字符串,这样我们就能方便地将其传递给代码解释器执行。

当然,JSON 并不是唯一的选择。除此之外,我们也可以让 LLM 直接生成调用工具的代码,或者为模型预先定义好一些函数供其调用,比如一个简单的乘法计算函数。这种让模型直接调用预定义函数的做法通常被称为函数调用(Function Calling)功能。

实际上,目前的大多数 LLM,如果给予充分且适当的提示,大体上都能学会使用各种各样的工具。

与此同时,还有一种更加根本性的提升策略,那就是直接对 LLM 进行微调训练,让工具使用能力真正内化到模型的参数中(关于微调如何改进 LLM 的工具使用能力,稍后还会详细探讨)。
在一些固定流程的 LLM Agent 框架中,我们会预先规定调用工具的顺序。

不过,更有意思的是让 LLM Agent 拥有完全的自主决策权,自己判断何时该用哪个工具。在这种自主决策模式下,LLM Agent 的工作方式变得更加灵活。它会连续执行一系列操作,每一步都由自己来决定采取什么动作、使用什么工具,甚至是否需要调整之前的策略。

换句话说,每个中间步骤的输出又会被反馈给 LLM,作为下一步的输入,周而复始地继续处理下去。

为了进一步增强 LLM Agent 对工具的使用能力,研究者从两个方向展开了探索:一类研究专注于提升模型本身调用工具的智能性,比如如何让模型自主决定调用时机、构造合理请求等;另一类则聚焦于改进工具的接入方式和调用体验,从系统架构层面为 LLM 提供更友好的工具使用环境。
接下来,本文就分别介绍这两类代表性工作:第一类代表是 Toolformer,它通过训练机制让 LLM 学会调用工具;第二类则是模型上下文协议(MCP),它通过标准化机制让工具更易于被 LLM 使用。
3.1 Toolformer
让 LLM 学会使用工具无疑是一种革命性的能力提升手段,它不仅可以显著增强 LLM 的实用性,还能有效弥补模型在特定领域的天然短板。这一巨大的潜力引起了学术界的广泛关注,近几年来关于 LLM 工具使用与学习的研究呈现出井喷态势。

许多研究不仅探索了如何通过提示词促使 LLM 使用工具,还进一步研究了如何训练模型更好地使用工具。
其中较早引人注目的一项技术叫做 Toolformer。它训练 LLM 学会决定应该调用哪些 API,以及如何调用。Toolformer 的实现思路是:利用特殊的标记来指示何时调用工具以及何时结束调用。举例来说,当输入问题“5 乘以 3 等于多少?”时,模型会开始生成回答,一直生成到出现一个“[”符号——这个符号表示模型决定去调用某个工具。

随后模型继续输出,直到出现“→”符号,这表示 LLM 暂停自身的生成过程,准备等待工具返回结果。接着,所需的工具被实际调用,其输出结果会被插入到模型已生成的内容中。

最后,当模型的输出中出现了“]”符号时,就意味着工具调用部分结束,LLM 可以继续生成剩余的回答内容。

为了让模型学会这种工具使用方式,Toolformer 精心构建了一个含有大量工具使用示例的数据集。具体做法是:针对每种工具,研究者先手动设计一些 few-shot 提示例子,让模型生成带有调用该工具的输出,然后根据工具使用是否正确、得到的结果是否正确以及模型损失是否降低等标准对这些输出进行筛选。经过筛选后留下的示例就构成了训练数据,用来训练 LLM 遵循上述的工具调用格式。

自从 Toolformer 发布以来,陆续出现了许多有趣的方法。例如,有的研究让大型语言模型能够调用上千种工具,称为 ToolLLM;还有的模型能够高效检索最相关的工具,如 Gorilla 模型。到 2025 年初,大多数主流大型语言模型都已经具备调用各类工具的能力。
3.2 模型上下文协议(MCP)
在智能体框架中,工具调用是让 LLM 与外界交互的重要途径。然而,当系统中有大量不同的工具时,让 LLM 使用它们会变得相当麻烦,因为我们需要为每个工具都做很多手动配置:
- 手动集成: 需要人工登记、跟踪每个工具,并将其提供给 LLM 使用
- 手动描述: 需要人工编写每个工具的说明(包括期望接受的 JSON 格式或调用方法)
- 手动维护: 一旦工具的 API 发生变化,就需要手动更新上述所有信息

为了解决这些问题,Anthropic 开发了模型上下文协议(Model Context Protocol,MCP)。MCP 将常用服务(例如天气查询、GitHub 等)的 API 接入方式进行了标准化。MCP 由以下三个部分组成:
- MCP 主机(MCP Host): 负责管理 MCP 连接的应用(例如代码编辑器 Cursor)
- MCP 客户端(MCP Client): 与 MCP 服务器保持一对一连接的组件
- MCP 服务器(MCP Server): 为 LLM 提供上下文、工具和能力支持的服务器

举个例子,假设你希望某个支持 MCP 的 LLM 应用帮你总结一下 Github 代码库中最新的 5 次提交记录。首先,MCP 主机(加上客户端)会询问 MCP 服务器,看看有哪些可用的工具(比如访问 GitHub 仓库的接口)。

LLM 获得这些可用工具的信息后,可能会决定调用其中一个工具。于是它通过主机发送请求给 MCP 服务器,请求使用该工具并获取结果。MCP 服务器执行相应操作后,把结果返回给 LLM。

最后,LLM 收到结果,整理后生成回答给用户。

通过引入 MCP 这一框架让创建和使用工具变得更加容易。你可以开发一个与某服务交互的 MCP 服务器,例如用于访问 GitHub 的接口,那么任何支持 MCP 协议的 LLM 应用程序都可以连上这个服务器并使用该功能。换句话说,开发一次,处处可用。
4、 规划
通过调用工具,LLM 确实能够显著扩展自身的能力范围。然而,拥有工具只是第一步,更关键的问题是:在一个智能体系统中,LLM 如何智能地决定何时该用哪个工具,又该按照什么顺序采取哪些步骤呢?这就需要引入一个至关重要的能力——规划能力。简单来说,规划就是让 LLM 能够将复杂的任务拆解成一系列逻辑清晰、可执行的步骤。

更进一步,有了规划能力的加持,模型就能够像人类一样迭代地反思先前的行为表现,并在发现问题或遇到新情况时灵活调整当前的计划。

那么,如何让 LLM 智能体具备这种强大的规划能力呢?答案是我们需要从最根本的地方入手,培养它的推理能力。毕竟,没有扎实的推理基础,就无法进行有效的规划。
4.1 推理能力
要让 LLM 规划出行动步骤,离不开复杂的推理过程。因此,在正式规划任务之前,LLM 必须具备一定的“先思考一下”的能力。这里所说的推理或思考比较宽泛,我们可以讨论这种过程到底算不算真正的人类式思考,还是仅仅把答案分解为结构化的步骤。不过无论如何,我们需要想办法让模型表现出这种推理行为。

总的来说,我们可以通过两条截然不同的路径来赋予模型推理能力:第一种是“深层改造”——对 LLM 进行微调训练,从根本上让模型学会在回答前先进行推理;第二种是“外在引导”——保持模型参数不变,通过巧妙的提示词工程来引导模型展现推理行为。
对于利用提示工程的方法,我们可以在提示中加入一些推理过程的示例来供 LLM 模仿。提供示例(这也叫少样本提示,few-shot prompting)是引导 LLM 行为的极佳手段之一。比如,我们可以给模型一个带有逐步推理过程的示范,让它按照类似的思路作答。

通过这种方式提供思考步骤示例的方法被称为“链式思维”,可以激发模型表现出更复杂的推理过程。
即使不提供示例(即零样本提示,zero-shot prompting),仅仅在提示里加上一句“让我们一步步地思考”,也往往能触发模型进入链式思维的模式。

在训练模型时,我们也可以通过构造包含推理过程的海量数据来提升模型的推理能力;或者在强化学习设置中,通过奖励机制让 LLM 自己摸索出思考的方法。举例来说,DeepSeek-R1 模型就利用奖励信号来引导模型在回答问题时采用多步推理的过程。

4.2 推理与行动(ReAct)
赋予 LLM 推理能力很重要,但仅有推理还不足以让它规划出实际可执行的行动步骤。我们前面介绍的技术,要么是专注于推理过程,要么是专注于通过工具与环境交互。

然而,我们需要的是让模型既能思考,又能行动。最早将思考和行动结合起来的技术之一叫做 ReAct(Reason + Act)。

ReAct 通过精心设计的提示将推理和动作结合在一起。它在提示中规定了模型输出的三个步骤:
- 思考 (Thought) —— 针对当前情况进行推理分析
- 行动 (Action) —— 决定要执行的操作(例如调用某个工具)
- 观察 (Observation) —— 根据行动的结果进行观察并继续推理
这个提示模板本身其实相当直观简单。

LLM 按照该提示来约束自己的行为,使其循环遵循“思考 - 行动 - 观察”的模式。

LLM 会一直重复这一循环,直到某一步的行动明确指示应该输出最终答案为止。通过在思考和观察之间不断交替,LLM 可以规划接下来的行动步骤,观察每一步的结果,并据此调整后续计划。
由此可见,与预先写死固定步骤的简单流程相比,这种框架让 LLM 表现出更加自主的智能体行为。
4.3 反思机制(Reflexion)
然而,即便应用了 ReAct,也没有哪一个智能体可以保证把每项任务都一次性完美完成。失败在所难免,关键是我们要让 LLM 学会反思并从中改进。ReAct 框架中缺少的正是这一环,而 Reflexion 技术正好填补了这个空白。
Reflexion 是一种利用语言形式的自我强化来帮助智能体从失败中学习的方法。Reflexion 的方法假设引入由 LLM 扮演的三种角色:
- 执行者(Actor): 根据观测到的状态选择并执行动作(可以使用链式思维或 ReAct 等方法来产生动作)
- 评价者(Evaluator): 对执行者产生的结果进行评估打分
- 自我反思者(Self-reflection): 对执行者的行为以及评价者给出的评分进行反思总结

在此基础上,Reflexion 还增加了记忆模块,用于记录执行过的动作(短期记忆)和自我反思的内容(长期记忆),帮助智能体积累经验,从错误中学习,找到更好的解决方案。
还有一种类似且巧妙的方法叫做 SELF-REFINE。在 SELF-REFINE 中,同一个 LLM 会反复进行输出改进和自我反馈:它先生成初始答案,再对自己的答案进行评价反馈,随后依据反馈改进答案,如此循环。

在这个过程中,初始回答、改进后的回答以及反馈意见都是由同一个模型依次产出的。

有意思的是,无论是 Reflexion 还是 SELF-REFINE,这种让模型自我反思的行为与强化学习的机制非常相似,后者是通过根据结果质量给予奖励来不断优化策略的,而这里 LLM 也是根据自身输出的质量不断地产生反馈并改进输出。
5、 多智能体协作
到目前为止,我们探讨的都是单个智能体的架构设计和能力培养。然而,正如俗话说的"一个好汉三个帮”,单智能体系统也不可避免地存在一些固有的局限性:当可用工具数量过多时,LLM 在选择时会陷入选择困难症;随着任务复杂度的提升,对话和记忆的上下文可能会变得极为庞大,严重影响处理效率;更重要的是,有些复杂任务可能需要跨越多个不同领域的专业知识,单个智能体很难做到面面俱到。
面对这些挑战,一个自然的解决方案就是引入多智能体框架。多智能体系统的核心思想是“术业有专攻”——让多个各自独立、各有所长的智能体通过协作和交互来共同完成复杂任务。

多智能体系统通常由一些专业的智能体构成,每个智能体都有自己特定的工具和能力范围,并由一个中央监督者进行管理协调。监督者负责在智能体之间传递信息,并根据需要将任务分派给合适的智能体。每个智能体可能配备了不同的工具、采用不同的记忆系统。

实际上,目前已经提出了许多多智能体架构,但它们的核心通常都围绕两个方面:
- 智能体的初始化 —— 如何创建独立的智能体?
- 智能体的协调 —— 如何在多个智能体之间进行协调与通信?

下面我们来看看几种有意思的多智能体框架,并重点了解它们如何实现上述两个核心要素。
5.1 生成式智能体(Generative Agents)
多智能体领域里有一篇极具影响力的论文,名为《Generative Agents: Interactive Simulacra of Human Behavior》。在这项研究中,作者构建了一系列智能体,能够模拟出逼真的人类行为,他们称之为生成式智能体(Generative Agents)。

在这个系统中,每个生成式智能体在初始化时都会被赋予详细的人物设定,这使得不同的智能体表现出独一无二的行为特点,也让整个模拟环境中的交互更加有趣和生动。每个智能体启动时都具备三个核心模块:记忆、规划和反思——这和之前在 ReAct 与 Reflexion 框架中看到的核心部分非常相似。

在该框架中,记忆模块至关重要。它不仅存储了智能体规划和反思过程中的内容,还记录了截至目前发生的所有事件。当智能体需要采取下一步行动或回答新的问题时,系统会从其记忆库中检索相关内容,并根据记忆的新近程度、重要性和相关性进行评分,将得分最高的那些记忆提取出来提供给智能体参考。

凭借这些机制,这些生成式智能体能够自由地按照各自的人设与动机行动,并彼此之间进行互动。值得一提的是,在这个框架中并没有赋予智能体一个预定的共同目标,因此整个系统几乎不需要专门的全局协调,每个智能体都按照自身的角色和经验自主行动。

这篇论文还有许多精彩的细节,由于篇幅所限不便全部展开,但这里想强调其中的评估指标。研究者主要以智能体行为的逼真度(即行为是否让人感觉真实可信)作为评价标准,并由人类评审对智能体的表现进行打分。评估结果显示,要让智能体的行为更加逼真可信,感知、规划和反思这三个要素是缺一不可的——正如之前讨论的,如果只有规划而缺乏反思,智能体的行为是很难完善的。

5.2 协作式多智能体框架
无论采用哪种方法构建多智能体系统,一般都需要考虑几个基本组成部分:智能体的人设(Profile)、环境感知(Percept)、记忆(Memory)、规划(Planning),以及可用的行动集合(Action)等。

AutoGen、MetaGPT、CAMEL 等都是当前很流行的多智能体框架。这些框架在实现上述组件方面各有千秋,同时它们对智能体之间通信的处理方式也略有不同。
以 CAMEL 框架为例:在开始时,由用户提出问题,并设定两个 AI 角色——一个充当 AI 用户(模拟提问的用户),另一个充当 AI 助手(提供解答)。

随后,这对 AI 用户和 AI 助手就会以角色扮演的方式展开合作,对问题进行讨论并逐步解决。在这个过程中,AI 用户不断提出要求或线索,而 AI 助手则据此作答,两者来回交互,携手推进任务的完成。通过这种机制,智能体之间实现了协作式的沟通。

AutoGen 和 MetaGPT 则采用了不同的通信与协作策略,但归根结底,它们都是为了让多个智能体可以互相交流,从而在过程中不断更新对任务的理解、调整各自的目标以及规划下一步动作。值得一提的是,在过去的一年里,此类框架的发展突飞猛进。可以预见,在 2025 年,这些多智能体协作框架将继续快速成熟,给我们带来许多令人振奋的进展!

如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】


为什么要学习大模型?
我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。


大模型入门到实战全套学习大礼包
1、大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

2、大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

3、AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

4、大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

5、大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

适用人群

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐



所有评论(0)