ViT（Vision Transformer）十年演进（2015–2025）

摘要： ViT（Vision Transformer）在2020年突破后迅速取代CNN成为视觉感知主流骨干网络。2020-2022年，ViT通过高效变体和BEV融合实现车载实时化；2023-2025年，百亿级大模型ViT结合多模态和量子技术，推动自进化视觉系统发展。中国厂商（华为、阿里、小鹏等）引领ViT创新，从跟随到全球领跑，渗透率从0%升至90%以上，参数规模达百亿级。ViT推动视觉感知从局部

jzwspace

666人浏览 · 2026-01-02 10:14:48

jzwspace · 2026-01-02 10:14:48 发布

ViT（Vision Transformer）十年演进（2015–2025）

一句话总论：
ViT从2020年“An Image is Worth 16x16 Words”论文的学术突破，到2025年已成为视觉感知的绝对主流骨干网络（Backbone），彻底终结CNN霸权，中国从跟随ViT跃升全球领跑者（华为盘古、阿里通义、百度文心、小鹏/比亚迪智驾、地平线等主导），ViT系列渗透率从0%飙升至>90%，参数规模从百万级到百亿级，精度/效率/鲁棒性全面碾压CNN，推动视觉感知从“卷积手工特征”到“Transformer全局语义自注意力”的文明跃迁。

十年演进时间线总结

年份	核心范式跃迁	代表模型/参数规模	mAP (COCO)/FPS	实时性/多模态能力	中国贡献/里程碑
2015–2019	Transformer文本时代（视觉无ViT）	BERT / ~100M–1B	- / -	无视觉	中国跟进BERT，视觉仍CNN主导
2020	ViT视觉Transformer元年	ViT (Google) / 86M–632M	~88% / <10 FPS	离线高精度	中国立即跟进ViT，产业化初步
2021	ViT高效变体+BEV融合	DeiT / Swin Transformer / ~100M	~90% / 20–50 FPS	初步实时+BEV	小鹏NGP + 华为ADS 2.0 Swin BEV首发
2022	ViT车载实时化+多任务	PVT / ConvNeXt hybrid / ~200M	~92% / 50–100 FPS	多任务+实时	地平线征程5 + Momenta ViT车载量产
2023	大模型ViT+多模态VLA元年	InternImage / EVA / 1B+	~94% / 100+ FPS	多模态+意图	阿里通义 + 华为盘古ViT多模态
2025	VLA自进化+量子鲁棒终极形态	Grok-4 Vision / DeepSeek-ViT / 10B+	>97% / 500+ FPS（量子加速）	全域动态社交+自进化	华为盘古ViT + 小鹏第二代VLA + 比亚迪天神之眼ViT

1. 2015–2019：Transformer文本时代（视觉无ViT）

核心特征：Transformer仅用于NLP（BERT等），视觉仍CNN（ResNet/EfficientNet）统治，ViT概念不存在。
关键进展：
- 2017年：Transformer论文（Attention is All You Need）。
- 2018–2019年：BERT/GPT文本大模型爆发。
挑战与转折：视觉局部性强，CNN更高效；ViT突破即将到来。
代表案例：ResNet/EfficientNet视觉Backbone霸榜。

2. 2020–2022：ViT爆发+车载实时化时代

核心特征：ViT将图像切块+自注意力全局建模，DeiT/Swin高效变体+BEV融合，精度超CNN，实时化初探。
关键进展：
- 2020年：Google ViT论文震撼业界，ImageNet精度88%+。
- 2021年：DeiT数据高效+Swin层次窗口，车载实时化。
- 2022年：BEVFormer+Swin BEV，小鹏NGP + 华为ADS 2.0量产。
挑战与转折：计算重；大模型+多模态融合兴起。
代表案例：小鹏NGP BEV ViT，城市动态感知精度>92%。

3. 2023–2025：大模型ViT+VLA自进化时代

核心特征：百亿–万亿级ViT大模型+端到端VLA统一+事件/4D融合+量子辅助鲁棒，自进化（越用越准）。
关键进展：
- 2023年：InternImage/EVA巨型ViT，阿里通义/华为盘古多模态ViT。
- 2024年：DeepSeek/Grok-4 Vision专用ViT，量子辅助抗扰。
- 2025年：华为盘古ViT + 小鹏第二代VLA + 比亚迪天神之眼，全场景动态社交ViT，普惠7万级智驾/机器人。
挑战与转折：黑箱/计算重；量子+大模型自进化标配。
代表案例：比亚迪天神之眼（7万级全天气ViT理解），银河通用2025人形（VLA ViT动态意图视觉）。

一句话总结

从2015年“无ViT概念”的CNN霸权时代，到2025年VLA量子自进化的“万亿级视觉大脑”时代，十年间ViT由学术突破转向具身智能核心，中国主导DeiT→Swin→BEV→VLA ViT创新+普惠下沉，推动视觉感知从“局部卷积特征”到“全局语义自注意力理解”的文明跃迁，预计2030年ViT系列渗透率>95%+全域永不失真自愈。

数据来源于arXiv综述、IROS 2025及中国厂商技术白皮书。