记录每天的学习内容2026.3.8--简单了解transformer在视觉上的发展(AI总结),与ai问答全部对话在https://github.com/101per/learning.git
我给你整理成一份,这样以后复习会很清晰。今天其实已经涉及到了一整条知识链。
我给你整理成一份 结构化学习文档,这样以后复习会很清晰。今天其实已经涉及到了 Transformer → Vision Transformer → 表示学习 → inductive bias → contrastive learning 一整条知识链。
Transformer 与现代视觉模型学习笔记
一、Transformer 的应用与发展
Transformer 最早来自 Attention Is All You Need 最初用于 机器翻译,但后来逐渐成为几乎所有 AI 模型的基础架构。
目前 Transformer 主要应用在三个领域:
1 NLP(自然语言处理)
根据结构不同分为三类:
| 架构 | 代表模型 | 特点 |
|---|---|---|
| Encoder-only | BERT、RoBERTa | 文本理解 |
| Decoder-only | GPT 系列 | 文本生成 |
| Encoder-Decoder | T5、BART | 翻译、摘要 |
其中 Decoder-only Transformer 已经成为当前大模型主流。
2 计算机视觉
代表性工作:
-
An Image is Worth 16x16 Words(ViT)
核心思想:
image → patch → token → transformer
即把图像切成小块,然后当作 token 序列处理。
3 多模态
最重要模型:
-
CLIP: Learning Transferable Visual Models From Natural Language Supervision
核心思想:
image encoder text encoder → embedding 对齐
使得图像与文本在 同一语义空间。
二、Vision Transformer 重要模型
今天重点学习了五个模型。
1 ViT(Vision Transformer)
论文:
An Image is Worth 16x16 Words
核心创新:
image → patches patch → embedding embedding → transformer
特点:
优点:
-
结构简单
-
全局 attention
-
scalable
缺点:
-
需要海量数据
2 DeiT
论文:
Training data-efficient image transformers & distillation through attention
解决问题:
ViT 数据需求太大
核心方法:
知识蒸馏(distillation token)
训练目标:
student model 学习 teacher model(CNN)
结果:
ViT 可以在 ImageNet-1K 上训练成功。
3 Swin Transformer
论文:
Swin Transformer
核心问题:
ViT attention 复杂度 O(N²) 高分辨率不可训练
解决方案:
Window Attention
只在局部窗口计算 attention。
复杂度:
O(N × M²)
M = window size
Shifted Window
解决窗口之间无法通信的问题。
机制:
layer1 → window attention layer2 → shift window
实现 跨窗口信息传播。
Hierarchical Structure
类似 CNN:
stage1 → high resolution stage4 → low resolution
形成 多尺度特征。
Swin 目前是很多视觉任务的 backbone。
4 MAE(Masked Autoencoder)
论文:
Masked Autoencoders Are Scalable Vision Learners
核心思想:
mask 75% patches encoder → visible patches decoder → reconstruct image
目标:
学习 图像语义结构。
优点:
-
利用无标签数据
-
自监督学习
5 CLIP
论文:
CLIP: Learning Transferable Visual Models From Natural Language Supervision
核心方法:
Contrastive Learning
训练目标:
正确 image-text pair → 接近 错误 pair → 远离
数学形式:
maximize cosine similarity
最终:
image embedding text embedding 共享语义空间
三、Contrastive Learning 与“对齐”
深度学习中的 对齐(alignment) 指:
让语义相同的表示在 embedding 空间中靠近。
数学表达:
sim(x, y) ↑
通常使用:
cosine similarity
对比学习的核心:
positive pair → 拉近 negative pair → 推远
效果:
semantic clustering
例如:
dog cluster cat cluster car cluster
四、Inductive Bias(归纳偏置)
Inductive Bias 指:
模型在学习前对世界做出的假设。
数学上:
f(x) ∈ F_bias
即模型只能学习 某一类函数空间。
CNN 的 inductive bias
CNN 假设:
-
图像是 局部结构
-
特征 平移不变
-
存在 层级结构
因此:
小数据 → CNN 强
Transformer 的 inductive bias
Transformer 几乎没有视觉假设:
token ↔ token 完全连接
优点:
表达能力强 可扩展
缺点:
需要大量数据
五、为什么现代研究减少 Inductive Bias
原因主要有三个:
1 避免错误先验
人为假设可能是错的。
例如:
CNN 假设局部结构 但任务可能是全局关系
2 提高模型表达能力
强 bias:
限制函数空间
弱 bias:
更通用
3 Scaling Law
论文:
Scaling Laws for Neural Language Models
发现:
性能 ∝ 数据规模
弱 bias 模型:
更容易 scale
六、今天学习的核心结论
可以用一句话总结:
现代 AI 的核心思想:
用数据学习结构 而不是人为设计结构
这也是 Transformer 成为主流架构的原因。
七、给你一个研究路线建议(非常重要)
如果你想深入 Transformer in Vision,我建议按这个顺序理解:
第一阶段(结构)
1️⃣ Vision Transformer 2️⃣ Swin Transformer
第二阶段(训练)
3️⃣ Training data-efficient image transformers & distillation through attention 4️⃣ Masked Autoencoders Are Scalable Vision Learners
第三阶段(多模态)
5️⃣ CLIP: Learning Transferable Visual Models From Natural Language Supervision
这五篇基本就是:
现代视觉 Transformer 的核心知识树。
更多推荐



所有评论(0)