我给你整理成一份 结构化学习文档,这样以后复习会很清晰。今天其实已经涉及到了 Transformer → Vision Transformer → 表示学习 → inductive bias → contrastive learning 一整条知识链。


Transformer 与现代视觉模型学习笔记

一、Transformer 的应用与发展

Transformer 最早来自 Attention Is All You Need 最初用于 机器翻译,但后来逐渐成为几乎所有 AI 模型的基础架构。

目前 Transformer 主要应用在三个领域:

1 NLP(自然语言处理)

根据结构不同分为三类:

架构 代表模型 特点
Encoder-only BERT、RoBERTa 文本理解
Decoder-only GPT 系列 文本生成
Encoder-Decoder T5、BART 翻译、摘要

其中 Decoder-only Transformer 已经成为当前大模型主流。


2 计算机视觉

代表性工作:

  • An Image is Worth 16x16 Words(ViT)

核心思想:

image → patch → token → transformer

即把图像切成小块,然后当作 token 序列处理。


3 多模态

最重要模型:

  • CLIP: Learning Transferable Visual Models From Natural Language Supervision

核心思想:

image encoder
text encoder
→ embedding 对齐

使得图像与文本在 同一语义空间


二、Vision Transformer 重要模型

今天重点学习了五个模型。

1 ViT(Vision Transformer)

论文:

An Image is Worth 16x16 Words

核心创新:

image → patches
patch → embedding
embedding → transformer

特点:

优点:

  • 结构简单

  • 全局 attention

  • scalable

缺点:

  • 需要海量数据


2 DeiT

论文:

Training data-efficient image transformers & distillation through attention

解决问题:

ViT 数据需求太大

核心方法:

知识蒸馏(distillation token)

训练目标:

student model
学习
teacher model(CNN)

结果:

ViT 可以在 ImageNet-1K 上训练成功。


3 Swin Transformer

论文:

Swin Transformer

核心问题:

ViT attention 复杂度 O(N²)
高分辨率不可训练

解决方案:

Window Attention

只在局部窗口计算 attention。

复杂度:

O(N × M²)

M = window size


Shifted Window

解决窗口之间无法通信的问题。

机制:

layer1 → window attention
layer2 → shift window

实现 跨窗口信息传播


Hierarchical Structure

类似 CNN:

stage1 → high resolution
stage4 → low resolution

形成 多尺度特征

Swin 目前是很多视觉任务的 backbone。


4 MAE(Masked Autoencoder)

论文:

Masked Autoencoders Are Scalable Vision Learners

核心思想:

mask 75% patches
encoder → visible patches
decoder → reconstruct image

目标:

学习 图像语义结构

优点:

  • 利用无标签数据

  • 自监督学习


5 CLIP

论文:

CLIP: Learning Transferable Visual Models From Natural Language Supervision

核心方法:

Contrastive Learning

训练目标:

正确 image-text pair → 接近
错误 pair → 远离

数学形式:

maximize cosine similarity

最终:

image embedding
text embedding
共享语义空间

三、Contrastive Learning 与“对齐”

深度学习中的 对齐(alignment) 指:

让语义相同的表示在 embedding 空间中靠近。

数学表达:

sim(x, y) ↑

通常使用:

cosine similarity

对比学习的核心:

positive pair → 拉近
negative pair → 推远

效果:

semantic clustering

例如:

dog cluster
cat cluster
car cluster

四、Inductive Bias(归纳偏置)

Inductive Bias 指:

模型在学习前对世界做出的假设。

数学上:

f(x) ∈ F_bias

即模型只能学习 某一类函数空间


CNN 的 inductive bias

CNN 假设:

  1. 图像是 局部结构

  2. 特征 平移不变

  3. 存在 层级结构

因此:

小数据 → CNN 强

Transformer 的 inductive bias

Transformer 几乎没有视觉假设:

token ↔ token
完全连接

优点:

表达能力强
可扩展

缺点:

需要大量数据

五、为什么现代研究减少 Inductive Bias

原因主要有三个:

1 避免错误先验

人为假设可能是错的。

例如:

CNN 假设局部结构
但任务可能是全局关系

2 提高模型表达能力

强 bias:

限制函数空间

弱 bias:

更通用

3 Scaling Law

论文:

Scaling Laws for Neural Language Models

发现:

性能 ∝ 数据规模

弱 bias 模型:

更容易 scale

六、今天学习的核心结论

可以用一句话总结:

现代 AI 的核心思想:

用数据学习结构
而不是人为设计结构

这也是 Transformer 成为主流架构的原因。

七、给你一个研究路线建议(非常重要)

如果你想深入 Transformer in Vision,我建议按这个顺序理解:

第一阶段(结构)

1️⃣ Vision Transformer 2️⃣ Swin Transformer

第二阶段(训练)

3️⃣ Training data-efficient image transformers & distillation through attention 4️⃣ Masked Autoencoders Are Scalable Vision Learners

第三阶段(多模态)

5️⃣ CLIP: Learning Transferable Visual Models From Natural Language Supervision

这五篇基本就是:

现代视觉 Transformer 的核心知识树。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐