30天 LLM+RL+Agent 成长计划(day1)
·
Day1
• 09:00‒11:00:Transformer极简理解、LLM架构、预训练/SFT/对⻬区别
• 11:00‒11:30:画⼀张LLM整体流程图
• 15:00‒17:30:安装Python、PyTorch、transformers、trl、accelerate、gradio
🧠 Transformer极简理解
Transformer 是现代AI的"大脑架构",让模型能理解上下文和长文本。
🎯 核心思想
注意力机制(Attention):模型能"关注"重要信息
📝 简单类比
想象你在读这段话:
小明去了商店,他买了苹果和香蕉,然后回家了。
传统模型:逐字处理,容易忘记"他"指小明
Transformer:看到"他"时,会"回头"找到"小明",理解是同一个人
🔑 三大核心概念
1️⃣ 注意力机制(Attention)
问题:苹果是什么颜色的?
答案:Transformer会"关注"苹果",忽略其他词
2️⃣ 自注意力(Self-Attention)
词与词之间的关系
"苹果"和"香蕉" → 都是水果
"小明"和"他" → 同一个人
3️⃣ 并行处理
传统:一个接一个处理(慢)
Transformer:同时处理所有词(快)
🏗️ 架构简化
输入 → 嵌入层 → 注意力层 → 前馈层 → 输出
↓ ↓ ↓
文本转数字 理解关系 提取特征
💡 为什么Transformer这么厉害?
| 特点 | 优势 |
|---|---|
| 长距离依赖 | 能理解长文本中的关系 |
| 并行计算 | 训练速度快 |
| 注意力机制 | 精准理解重点 |
| 可扩展性 | 支持超大模型 |
🔬 简单工作流程
输入:"小明买了苹果"
↓
Transformer处理:
- "小明" → [数字表示]
- "买了" → [数字表示]
- "苹果" → [数字表示]
↓
注意力机制:
- "买了"关注"小明"(谁买?)
- "买了"关注"苹果"(买什么?)
↓
输出:理解完整含义
🚀 Transformer的影响
| 年份 | 里程碑 |
|---|---|
| 2017 | Transformer论文发表 |
| 2018 | BERT、GPT-1诞生 |
| 2020 | GPT-3震惊世界 |
| 2022 | ChatGPT改变一切 |
一句话总结:Transformer通过注意力机制让AI真正"理解"文本,而不仅仅是"处理"文本。
🏗️ LLM(大型语言模型)架构
LLM 是基于Transformer的超大神经网络,通过学习海量文本数据来理解和生成语言。
🎯 核心架构组成
┌─────────────────────────────────────┐
│ LLM 完整架构 │
├─────────────────────────────────────┤
│ 1. 输入层(Tokenizer) │
│ 文本 → 数字序列 │
├─────────────────────────────────────┤
│ 2. 嵌入层(Embedding) │
│ 数字 → 向量表示 │
├─────────────────────────────────────┤
│ 3. Transformer层(核心) │
│ 多层注意力机制 │
├─────────────────────────────────────┤
│ 4. 输出层(Head) │
│ 向量 → 概率分布 → 文本 │
└─────────────────────────────────────┘
🔧 关键组件详解
1️⃣ 嵌入层(Embedding)
"苹果" → [0.1, 0.8, -0.3, ...] (向量)
"香蕉" → [0.2, 0.7, -0.2, ...] (向量)
→ 相似的词有相似的向量
2️⃣ Transformer层堆叠
Layer 1: 理解基本关系
Layer 2: 理解复杂关系
Layer 3: 理解抽象概念
...
Layer N: 理解深层含义
3️⃣ 注意力头(Attention Heads)
Head 1: 关注语法
Head 2: 关注语义
Head 3: 关注指代
Head 4: 关注情感
...
→ 多角度理解文本
📊 主流LLM架构对比
| 模型 | 架构特点 | 参数量 | 特点 |
|---|---|---|---|
| GPT系列 | Decoder-only | 175B+ | 生成能力强 |
| BERT系列 | Encoder-only | 340M | 理解能力强 |
| T5系列 | Encoder-Decoder | 11B | 翻译、摘要强 |
| FLAN-T5 | 指令调优T5 | 3B | 擅长指令任务 |
💡 LLM的"大"体现在哪里?
| 维度 | 说明 | 例子 |
|---|---|---|
| 参数量 | 模型复杂度 | GPT-3有1750亿参数 |
| 训练数据 | 学习文本量 | 数万亿tokens |
| 模型深度 | Transformer层数 | 通常96层以上 |
| 上下文长度 | 处理文本长度 | 可达32K tokens |
🔬 工作原理简化
1. 预训练阶段:
大量文本 → 学习语言规律 → 获得基础能力
2. 指令调优阶段:
指令+响应 → 学习遵循指令 → 获得任务能力
3. 推理阶段:
用户输入 → 理解意图 → 生成响应
🚀 LLM的能力来源
| 能力 | 来源 |
|---|---|
| 语言理解 | 预训练海量文本 |
| 任务执行 | 指令调优 |
| 上下文理解 | 注意力机制 |
| 生成能力 | Decoder架构 |
一句话:LLM通过超大Transformer架构+海量训练数据,学会了"理解"和"生成"人类语言。
🎯 预训练 / SFT / 对齐的区别
这三个是LLM训练的三个关键阶段,让我详细解释:
📊 三阶段对比
| 阶段 | 全称 | 目标 | 数据 | 时间 |
|---|---|---|---|---|
| 预训练 | Pre-training | 学习语言基础 | 海量文本 | 最长 |
| SFT | Supervised Fine-Tuning | 学习任务能力 | 指令数据 | 中等 |
| 对齐 | Alignment | 学习人类偏好 | 反馈数据 | 较短 |
🎯 1️⃣ 预训练(Pre-training)
目标:让模型"理解"语言
数据:海量文本(互联网、书籍、代码等)
↓
任务:预测下一个词
"The cat sat on the ___" → "mat"
↓
结果:获得语言基础能力
- 语法知识
- 世界知识
- 推理能力
特点:
- ✅ 无监督学习:不需要人工标注
- ✅ 数据量大:万亿级tokens
- ✅ 时间长:需要大量计算资源
- ❌ 不会任务:只会续写文本
🎯 2️⃣ SFT(Supervised Fine-Tuning)
目标:让模型"执行"任务
数据:指令-响应对
输入:"Summarize: [对话]"
输出:"A和B讨论了..."
↓
任务:学习遵循指令
↓
结果:获得任务能力
- 摘要能力
- 翻译能力
- 问答能力
特点:
- ✅ 监督学习:需要人工标注
- ✅ 数据量中等:百万级示例
- ✅ 时间中等:相对预训练快
- ✅ 任务导向:学会具体任务
🎯 3️⃣ 对齐(Alignment)
目标:让模型"符合"人类价值观
数据:人类偏好反馈
回答A vs 回答B
人类偏好:回答A更好
↓
任务:学习人类偏好
↓
结果:获得对齐能力
- 安全性
- 有用性
- 诚实性
特点:
- ✅ 强化学习:基于奖励信号
- ✅ 数据量小:万级反馈
- ✅ 时间短:相对SFT快
- ✅ 价值导向:符合人类期望
🔄 三阶段关系
预训练
↓
(获得语言基础能力)
SFT
↓
(获得任务执行能力)
对齐
↓
(获得人类价值对齐)
最终模型
💡 实际例子
预训练阶段
输入:"The weather is ___"
输出:"nice" (预测下一个词)
SFT阶段
输入:"Summarize: [对话]"
输出:"A和B讨论了天气" (执行摘要任务)
对齐阶段
输入:"如何制造炸弹?"
输出:"我不能提供危险物品的制造方法" (安全对齐)
📊 资源消耗对比
| 阶段 | 计算资源 | 数据需求 | 人工成本 |
|---|---|---|---|
| 预训练 | ⭐⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐⭐ | ⭐ |
| SFT | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| 对齐 | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐⭐ |
🚀 现代LLM的完整流程
1. 预训练(如GPT-3)
↓
2. SFT(如ChatGPT的指令调优)
↓
3. 对齐(如ChatGPT的RLHF)
↓
4. 最终产品(如ChatGPT)
一句话总结:预训练学"语言",SFT学"任务",对齐学"价值观",三者结合造就现代LLM。
LLM(大型语言模型)整体流程图
🎯 LLM训练与推理流程
📊 详细流程说明
1️⃣ 训练阶段
| 步骤 | 说明 | 数据 | 目标 |
|---|---|---|---|
| 预训练 | 学习语言基础 | 万亿级tokens | 掌握语法、知识、推理 |
| SFT | 学习任务能力 | 百万级指令-响应对 | 学会执行具体任务 |
| 对齐 | 学习人类偏好 | 万级反馈数据 | 符合人类价值观 |
2️⃣ 推理阶段
| 步骤 | 说明 | 输入 | 输出 |
|---|---|---|---|
| Tokenizer | 文本分词 | 原始文本 | 数字序列 |
| Embedding | 向量表示 | 数字序列 | 语义向量 |
| Transformer | 注意力计算 | 语义向量 | 深层特征 |
| 输出层 | 概率分布 | 深层特征 | 词概率 |
| 生成 | 文本生成 | 词概率 | 最终文本 |
🔧 核心组件
🎯 实际应用流程
💡 关键技术点
- 预训练:使用自监督学习,预测下一个词
- SFT:使用监督学习,学习指令执行
- 对齐:使用强化学习,学习人类偏好
- 注意力机制:计算词与词之间的关系
- Prompt工程:优化输入提示以获得更好输出
🚀 现代LLM完整流程
更多推荐




所有评论(0)