记录每天的学习内容2026.3.8--简单了解transformer在视觉上的发展(AI总结),与ai问答全部对话在https://github.com/101per/learning.git

我给你整理成一份，这样以后复习会很清晰。今天其实已经涉及到了一整条知识链。

101%87

310人浏览 · 2026-03-08 21:33:25

101%87 · 2026-03-08 21:33:25 发布

我给你整理成一份 结构化学习文档，这样以后复习会很清晰。今天其实已经涉及到了 Transformer → Vision Transformer → 表示学习 → inductive bias → contrastive learning 一整条知识链。

Transformer 与现代视觉模型学习笔记

一、Transformer 的应用与发展

Transformer 最早来自 Attention Is All You Need 最初用于 机器翻译，但后来逐渐成为几乎所有 AI 模型的基础架构。

目前 Transformer 主要应用在三个领域：

1 NLP（自然语言处理）

根据结构不同分为三类：

架构	代表模型	特点
Encoder-only	BERT、RoBERTa	文本理解
Decoder-only	GPT 系列	文本生成
Encoder-Decoder	T5、BART	翻译、摘要

其中 Decoder-only Transformer 已经成为当前大模型主流。

2 计算机视觉

代表性工作：

An Image is Worth 16x16 Words（ViT）

核心思想：

image → patch → token → transformer

即把图像切成小块，然后当作 token 序列处理。

3 多模态

最重要模型：

CLIP: Learning Transferable Visual Models From Natural Language Supervision

核心思想：

image encoder
text encoder
→ embedding 对齐

使得图像与文本在 同一语义空间。

二、Vision Transformer 重要模型

今天重点学习了五个模型。

1 ViT（Vision Transformer）

论文：

An Image is Worth 16x16 Words

核心创新：

image → patches
patch → embedding
embedding → transformer

特点：

优点：

结构简单
全局 attention
scalable

缺点：

需要海量数据

2 DeiT

论文：

Training data-efficient image transformers & distillation through attention

解决问题：

ViT 数据需求太大

核心方法：

知识蒸馏（distillation token）

训练目标：

student model
学习
teacher model（CNN）

结果：

ViT 可以在 ImageNet-1K 上训练成功。

3 Swin Transformer

论文：

Swin Transformer

核心问题：

ViT attention 复杂度 O(N²)
高分辨率不可训练

解决方案：

Window Attention

只在局部窗口计算 attention。

复杂度：

O(N × M²)

M = window size

Shifted Window

解决窗口之间无法通信的问题。

机制：

layer1 → window attention
layer2 → shift window

实现 跨窗口信息传播。

Hierarchical Structure

类似 CNN：

stage1 → high resolution
stage4 → low resolution

形成 多尺度特征。

Swin 目前是很多视觉任务的 backbone。

4 MAE（Masked Autoencoder）

论文：

Masked Autoencoders Are Scalable Vision Learners

核心思想：

mask 75% patches
encoder → visible patches
decoder → reconstruct image

目标：

学习 图像语义结构。

优点：

利用无标签数据
自监督学习

5 CLIP

论文：

CLIP: Learning Transferable Visual Models From Natural Language Supervision

核心方法：

Contrastive Learning

训练目标：

正确 image-text pair → 接近
错误 pair → 远离

数学形式：

maximize cosine similarity

最终：

image embedding
text embedding
共享语义空间

三、Contrastive Learning 与“对齐”

深度学习中的 对齐（alignment） 指：

让语义相同的表示在 embedding 空间中靠近。

数学表达：

sim(x, y) ↑

通常使用：

cosine similarity

对比学习的核心：

positive pair → 拉近
negative pair → 推远

效果：

semantic clustering

例如：

dog cluster
cat cluster
car cluster

四、Inductive Bias（归纳偏置）

Inductive Bias 指：

模型在学习前对世界做出的假设。

数学上：

f(x) ∈ F_bias

即模型只能学习 某一类函数空间。

CNN 的 inductive bias

CNN 假设：

图像是 局部结构
特征 平移不变
存在 层级结构

因此：

小数据 → CNN 强

Transformer 的 inductive bias

Transformer 几乎没有视觉假设：

token ↔ token
完全连接

优点：

表达能力强
可扩展

缺点：

需要大量数据

五、为什么现代研究减少 Inductive Bias

原因主要有三个：

1 避免错误先验

人为假设可能是错的。

例如：

CNN 假设局部结构
但任务可能是全局关系

2 提高模型表达能力

强 bias：

限制函数空间

弱 bias：

更通用

3 Scaling Law

论文：

Scaling Laws for Neural Language Models

发现：

性能 ∝ 数据规模

弱 bias 模型：

更容易 scale

六、今天学习的核心结论

可以用一句话总结：

现代 AI 的核心思想：

用数据学习结构
而不是人为设计结构

这也是 Transformer 成为主流架构的原因。

七、给你一个研究路线建议（非常重要）

如果你想深入 Transformer in Vision，我建议按这个顺序理解：

第一阶段（结构）

1️⃣ Vision Transformer 2️⃣ Swin Transformer

第二阶段（训练）

3️⃣ Training data-efficient image transformers & distillation through attention 4️⃣ Masked Autoencoders Are Scalable Vision Learners

第三阶段（多模态）

5️⃣ CLIP: Learning Transferable Visual Models From Natural Language Supervision

这五篇基本就是：

现代视觉 Transformer 的核心知识树。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI生产数据分析WinForms项目笔记

2048 AI社区

使用LangGraph、FastAPI和Streaml构建状态化AI应用的完整架构

2048 AI社区

学AI能找到允许远程办公的工作吗？

2048 AI社区

所有评论(0)

查看更多评论

101%87

@2403_88318326

已为社区贡献5条内容