Day1

• 09:00‒11:00:Transformer极简理解、LLM架构、预训练/SFT/对⻬区别
• 11:00‒11:30:画⼀张LLM整体流程图
• 15:00‒17:30:安装Python、PyTorch、transformers、trl、accelerate、gradio

🧠 Transformer极简理解

Transformer 是现代AI的"大脑架构",让模型能理解上下文和长文本。

🎯 核心思想

注意力机制(Attention):模型能"关注"重要信息

📝 简单类比

想象你在读这段话:

小明去了商店,他买了苹果和香蕉,然后回家了。

传统模型:逐字处理,容易忘记"他"指小明
Transformer:看到"他"时,会"回头"找到"小明",理解是同一个人

🔑 三大核心概念

1️⃣ 注意力机制(Attention)
问题:苹果是什么颜色的?
答案:Transformer会"关注"苹果",忽略其他词
2️⃣ 自注意力(Self-Attention)
词与词之间的关系
"苹果"和"香蕉" → 都是水果
"小明"和"他" → 同一个人
3️⃣ 并行处理
传统:一个接一个处理(慢)
Transformer:同时处理所有词(快)

🏗️ 架构简化

输入 → 嵌入层 → 注意力层 → 前馈层 → 输出
         ↓          ↓         ↓
      文本转数字  理解关系  提取特征

💡 为什么Transformer这么厉害?

特点 优势
长距离依赖 能理解长文本中的关系
并行计算 训练速度快
注意力机制 精准理解重点
可扩展性 支持超大模型

🔬 简单工作流程

输入:"小明买了苹果"
↓
Transformer处理:
- "小明" → [数字表示]
- "买了" → [数字表示]  
- "苹果" → [数字表示]
↓
注意力机制:
- "买了"关注"小明"(谁买?)
- "买了"关注"苹果"(买什么?)
↓
输出:理解完整含义

🚀 Transformer的影响

年份 里程碑
2017 Transformer论文发表
2018 BERT、GPT-1诞生
2020 GPT-3震惊世界
2022 ChatGPT改变一切

一句话总结:Transformer通过注意力机制让AI真正"理解"文本,而不仅仅是"处理"文本。

🏗️ LLM(大型语言模型)架构

LLM 是基于Transformer的超大神经网络,通过学习海量文本数据来理解和生成语言。

🎯 核心架构组成

┌─────────────────────────────────────┐
│         LLM 完整架构           │
├─────────────────────────────────────┤
│ 1. 输入层(Tokenizer)        │
│    文本 → 数字序列             │
├─────────────────────────────────────┤
│ 2. 嵌入层(Embedding)       │
│    数字 → 向量表示             │
├─────────────────────────────────────┤
│ 3. Transformer层(核心)       │
│    多层注意力机制              │
├─────────────────────────────────────┤
│ 4. 输出层(Head)           │
│    向量 → 概率分布 → 文本     │
└─────────────────────────────────────┘

🔧 关键组件详解

1️⃣ 嵌入层(Embedding)
"苹果" → [0.1, 0.8, -0.3, ...] (向量)
"香蕉" → [0.2, 0.7, -0.2, ...] (向量)
→ 相似的词有相似的向量
2️⃣ Transformer层堆叠
Layer 1: 理解基本关系
Layer 2: 理解复杂关系  
Layer 3: 理解抽象概念
...
Layer N: 理解深层含义
3️⃣ 注意力头(Attention Heads)
Head 1: 关注语法
Head 2: 关注语义
Head 3: 关注指代
Head 4: 关注情感
...
→ 多角度理解文本

📊 主流LLM架构对比

模型 架构特点 参数量 特点
GPT系列 Decoder-only 175B+ 生成能力强
BERT系列 Encoder-only 340M 理解能力强
T5系列 Encoder-Decoder 11B 翻译、摘要强
FLAN-T5 指令调优T5 3B 擅长指令任务

💡 LLM的"大"体现在哪里?

维度 说明 例子
参数量 模型复杂度 GPT-3有1750亿参数
训练数据 学习文本量 数万亿tokens
模型深度 Transformer层数 通常96层以上
上下文长度 处理文本长度 可达32K tokens

🔬 工作原理简化

1. 预训练阶段:
   大量文本 → 学习语言规律 → 获得基础能力

2. 指令调优阶段:
   指令+响应 → 学习遵循指令 → 获得任务能力

3. 推理阶段:
   用户输入 → 理解意图 → 生成响应

🚀 LLM的能力来源

能力 来源
语言理解 预训练海量文本
任务执行 指令调优
上下文理解 注意力机制
生成能力 Decoder架构

一句话:LLM通过超大Transformer架构+海量训练数据,学会了"理解"和"生成"人类语言。

🎯 预训练 / SFT / 对齐的区别

这三个是LLM训练的三个关键阶段,让我详细解释:

📊 三阶段对比

阶段 全称 目标 数据 时间
预训练 Pre-training 学习语言基础 海量文本 最长
SFT Supervised Fine-Tuning 学习任务能力 指令数据 中等
对齐 Alignment 学习人类偏好 反馈数据 较短

🎯 1️⃣ 预训练(Pre-training)

目标:让模型"理解"语言

数据:海量文本(互联网、书籍、代码等)
    ↓
任务:预测下一个词
    "The cat sat on the ___" → "mat"
    ↓
结果:获得语言基础能力
    - 语法知识
    - 世界知识
    - 推理能力

特点

  • 无监督学习:不需要人工标注
  • 数据量大:万亿级tokens
  • 时间长:需要大量计算资源
  • 不会任务:只会续写文本

🎯 2️⃣ SFT(Supervised Fine-Tuning)

目标:让模型"执行"任务

数据:指令-响应对
    输入:"Summarize: [对话]"
    输出:"A和B讨论了..."
    ↓
任务:学习遵循指令
    ↓
结果:获得任务能力
    - 摘要能力
    - 翻译能力
    - 问答能力

特点

  • 监督学习:需要人工标注
  • 数据量中等:百万级示例
  • 时间中等:相对预训练快
  • 任务导向:学会具体任务

🎯 3️⃣ 对齐(Alignment)

目标:让模型"符合"人类价值观

数据:人类偏好反馈
    回答A vs 回答B
    人类偏好:回答A更好
    ↓
任务:学习人类偏好
    ↓
结果:获得对齐能力
    - 安全性
    - 有用性
    - 诚实性

特点

  • 强化学习:基于奖励信号
  • 数据量小:万级反馈
  • 时间短:相对SFT快
  • 价值导向:符合人类期望

🔄 三阶段关系

预训练
    ↓
    (获得语言基础能力)
SFT
    ↓
    (获得任务执行能力)
对齐
    ↓
    (获得人类价值对齐)
最终模型

💡 实际例子

预训练阶段
输入:"The weather is ___"
输出:"nice"  (预测下一个词)
SFT阶段
输入:"Summarize: [对话]"
输出:"A和B讨论了天气"  (执行摘要任务)
对齐阶段
输入:"如何制造炸弹?"
输出:"我不能提供危险物品的制造方法"  (安全对齐)

📊 资源消耗对比

阶段 计算资源 数据需求 人工成本
预训练 ⭐⭐⭐⭐⭐⭐ ⭐⭐⭐⭐⭐⭐
SFT ⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐⭐
对齐 ⭐⭐ ⭐⭐ ⭐⭐⭐⭐⭐

🚀 现代LLM的完整流程

1. 预训练(如GPT-3)
   ↓
2. SFT(如ChatGPT的指令调优)
   ↓
3. 对齐(如ChatGPT的RLHF)
   ↓
4. 最终产品(如ChatGPT)

一句话总结:预训练学"语言",SFT学"任务",对齐学"价值观",三者结合造就现代LLM。

LLM(大型语言模型)整体流程图

🎯 LLM训练与推理流程

推理阶段

训练阶段

海量文本数据

预训练
Pre-training

指令数据

SFT训练
Supervised Fine-Tuning

人类反馈数据

对齐训练
Alignment

最终模型
Final Model

用户输入

Tokenizer
文本分词

Embedding
向量表示

Transformer层
注意力计算

输出层
概率分布

生成文本
Text Generation

📊 详细流程说明

1️⃣ 训练阶段

步骤 说明 数据 目标
预训练 学习语言基础 万亿级tokens 掌握语法、知识、推理
SFT 学习任务能力 百万级指令-响应对 学会执行具体任务
对齐 学习人类偏好 万级反馈数据 符合人类价值观

2️⃣ 推理阶段

步骤 说明 输入 输出
Tokenizer 文本分词 原始文本 数字序列
Embedding 向量表示 数字序列 语义向量
Transformer 注意力计算 语义向量 深层特征
输出层 概率分布 深层特征 词概率
生成 文本生成 词概率 最终文本

🔧 核心组件

注意力机制

模型架构

Tokenizer

Embedding Layer

Attention Layers

Feed-Forward Networks

Output Layer

Query向量

计算注意力权重

Key向量

Value向量

加权求和

🎯 实际应用流程

用户输入

Prompt工程
Prompt Engineering

LLM推理

生成响应

验证与后处理

最终输出

💡 关键技术点

  1. 预训练:使用自监督学习,预测下一个词
  2. SFT:使用监督学习,学习指令执行
  3. 对齐:使用强化学习,学习人类偏好
  4. 注意力机制:计算词与词之间的关系
  5. Prompt工程:优化输入提示以获得更好输出

🚀 现代LLM完整流程

知识库 大型语言模型 应用 用户 知识库 大型语言模型 应用 用户 输入问题 处理后的Prompt Tokenize输入 Embedding转换 Transformer处理 生成响应 生成文本 后处理 最终回答
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐