AI核心概念详解_从Transformer到Agent
Token是大模型处理文本的最基本单位。用户输入的文字不会直接交给模型,而是需要经过Tokenizer(分词器)进行编码。从 Transformer 到 Agent,大语言模型的技术栈正在快速演进。理解这些核心概念,不仅能帮助你更好地使用 AI 工具,也能为深入学习 AI 技术打下坚实基础。记住这个核心逻辑LLM 是"大脑",Token 是"语言",Context 是"记忆",RAG 是"知识库"
一文读懂大语言模型核心概念:从Transformer到Agent
阅读时间:约 8 分钟
适合人群:AI初学者、产品经理、技术爱好者
引言
2022年底,ChatGPT的横空出世让全世界第一次真切感受到了人工智能的力量。但在这股浪潮背后,究竟有哪些核心技术在支撑?本文将用通俗易懂的方式,带你系统梳理大语言模型(LLM)的核心概念,从底层架构到上层应用,构建完整的认知框架。
一、LLM是什么?——Transformer架构的产物
大语言模型(Large Language Model,LLM) 是基于 Transformer 架构 训练出来的语言模型。
- Transformer:由 Google 在 2017 年提出,是 NLP 领域的里程碑式突破
- 引爆全球:虽然 Google 发明了 Transformer,但真正将 LLM 推向大众的是 OpenAI
- 鼻祖地位:GPT(Generative Pre-trained Transformer)系列可以被视为这一轮 AI 浪潮的鼻祖
💡 一句话理解:LLM 就是一个经过海量文本训练的"超级文字接龙选手"。
二、LLM的工作原理:文字接龙游戏
LLM 的核心机制非常直观——预测下一个词。
工作流程
用户输入问题 → 模型预测下一个概率最高的词 → 将预测的词加入上下文
→ 再次预测 → 循环往复 → 预测结束,输出完整回答
这个过程就像我们在玩文字接龙:你给出开头,模型根据已学到的语言规律,一步步"接"出最合理的下文。
三、Token:大模型处理文本的最小单元
什么是 Token?
Token 是大模型处理文本的最基本单位。用户输入的文字不会直接交给模型,而是需要经过 Tokenizer(分词器) 进行编码。
编码过程:切分 + 映射
| 步骤 | 说明 |
|---|---|
| 切分 | 将用户的问题拆分成若干小块,每一块就是一个 Token |
| 映射 | 每个 Token 对应一个唯一的数字(Token ID) |
解码过程:映射还原
模型输出的是数字序列,再经过 Tokenizer 解码,将 Token ID 映射回文字,最终呈现给用户。
Token 的"大小"
| 语言 | 换算关系 |
|---|---|
| 英文 | 1 Token ≈ 0.75 个单词 |
| 中文 | 1 Token ≈ 1.5 ~ 2 个汉字 |
⚠️ 实际影响:这也是为什么中文对话比英文更"费 Token",同样的内容中文会消耗更多上下文空间。
四、Context:大模型的"临时记忆"
Context(上下文)
Context 是大模型每次处理任务时所接收到的信息总和,可以理解为模型的临时记忆体。模型就是基于这些上下文信息来理解和回答问题的。
Context Window(上下文窗口)
这是 Context 能容纳的最大 Token 数量,是衡量模型能力的重要指标之一。
| 模型 | 上下文窗口 |
|---|---|
| GPT-4 | 约 128K Token |
| Gemini 1.5 Pro | 1,000,000 Token |
| Claude 3 Opus | 200,000 Token |
📌 窗口越大,模型能"记住"的信息就越多,处理长文档、复杂对话的能力就越强。
五、RAG:让大模型"开卷考试"
RAG(Retrieval-Augmented Generation,检索增强生成) 是一种让大模型更准确的实用技术。
核心思路
与其让模型靠"死记硬背"来回答,不如让它先查资料再回答——就像开卷考试一样。
工作流程
用户提问 → 从知识库中抽取最匹配的几个片段 → 将这些片段发给大模型
→ 大模型基于这些片段生成回答
RAG 的优势
- ✅ 解决模型"幻觉"问题(胡说八道)
- ✅ 让模型掌握最新、私域知识
- ✅ 回答可溯源、更可信
六、Prompt:与模型对话的"咒语"
Prompt(提示词) 是大模型接收的具体问题或指令,是与 AI 交互的核心媒介。
两种 Prompt
| 类型 | 作用 | 示例 |
|---|---|---|
| User Prompt | 用户的具体问题或请求 | “帮我写一封求职邮件” |
| System Prompt | 设定模型的角色和行为规则 | “你是一位专业的职业规划师,回答要简洁专业” |
🎯 Prompt Engineering(提示词工程) 就是研究如何写出更好的 Prompt,让模型输出更精准、更符合预期的结果。
七、Tool:让大模型长出"手脚"
大模型本身只能"说话",但现实世界需要它感知和影响外部环境。Tool(工具函数) 就是为此而生的。
交互流程
用户输入问题 → 大模型判断需要调用工具 → 生成工具参数 → 平台调用工具
→ 工具返回结果 → 平台将结果发给大模型 → 大模型总结后回复用户
三方协作
| 角色 | 职责 |
|---|---|
| 大模型 | 选择使用什么工具,生成参数,归纳总结 |
| 工具 | 完成具体的动作(查天气、搜网页、调用API等) |
| 平台 | 串联整个流程,负责调度执行 |
八、MCP:工具的"统一接口"
MCP(Model Context Protocol,模型上下文协议) 是由 Anthropic 提出的统一工具接入规范。
为什么要 MCP?
在没有统一标准之前,每个工具都需要单独对接,开发成本高、扩展性差。MCP 就像 USB 接口 一样,让不同的工具可以用统一的方式接入大模型。
🔌 类比:以前每个手机充电器都不一样,USB-C 统一了接口,MCP 就是 AI 工具的"USB-C"。
九、Agent:从"工具人"到"智能体"
Agent(智能体) 是大模型应用的更高阶形态,核心特征是具备自主规划和自主调用工具的能力。
Agent vs 普通工具调用
| 普通工具调用 | Agent |
|---|---|
| 用户指定用什么工具 | 模型自己判断用什么工具 |
| 单步执行 | 多步规划、自主决策 |
| 被动响应 | 主动思考、迭代优化 |
Agent Skill:给 Agent 的"说明书"
为了让 Agent 更好地完成任务,需要给它编写 Agent Skill(技能说明文档),通常包含两层结构:
🔹 元数据层
- name:技能名称
- description:技能描述(让 Agent 知道什么时候该用这个技能)
🔹 指令层
- 具体的执行说明,格式可以自定义
- 目标是让 Agent 清楚:这个技能能做什么、怎么用、什么时候用
十、知识地图:一张图串联所有概念
┌─────────────────────────────────────────────────────────────┐
│ 用户交互层 │
│ Prompt(提示词)→ 驱动整个对话 │
└─────────────────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────┐
│ 模型能力层 │
│ LLM(基于 Transformer) │
│ ├── Token(文本处理单元) │
│ ├── Context(临时记忆) │
│ └── Context Window(记忆容量) │
└─────────────────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────┐
│ 增强能力层 │
│ ├── RAG(检索增强)→ 解决知识盲区 │
│ ├── Tool(工具调用)→ 扩展外部能力 │
│ └── MCP(统一协议)→ 标准化接入 │
└─────────────────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────┐
│ 智能体层 │
│ Agent(自主规划 + 自主调用工具) │
│ └── Agent Skill(技能说明书) │
└─────────────────────────────────────────────────────────────┘
结语
从 Transformer 到 Agent,大语言模型的技术栈正在快速演进。理解这些核心概念,不仅能帮助你更好地使用 AI 工具,也能为深入学习 AI 技术打下坚实基础。
记住这个核心逻辑:
LLM 是"大脑",Token 是"语言",Context 是"记忆",RAG 是"知识库",Tool 是"手脚",MCP 是"接口标准",Agent 是"完整的人"。
希望这篇文章能帮你构建起清晰的 AI 认知框架。如果你有任何问题,欢迎在评论区交流!
本文基于个人学习笔记整理,如有疏漏欢迎指正。
更多推荐



所有评论(0)