【愚公系列】《人工智能70年》037-计算机视觉大放异彩（巨变发生了）

计算机视觉技术迎来变革性突破：随着Transformer架构从NLP拓展至视觉领域，2020年问世的ViT将图像处理转化为序列建模，显著提升识别精度和效率。2024年OpenAI发布的Sora模型更是实现文本到高质量视频的跨越式生成。中国AI企业如字节跳动、腾讯等正加速追赶国际同行，海归与本土人才共同推动计算机视觉产业化进程，在学术研究和商业应用领域取得显著进展。该技术已从专业领域延伸至日常生活，

愚公搬代码

286人浏览 · 2025-09-23 00:15:00

愚公搬代码 · 2025-09-23 00:15:00 发布

在这里插入图片描述

💎【行业认证·权威头衔】
✔ 华为云天团核心成员：特约编辑/云享专家/开发者专家/产品云测专家
✔ 开发者社区全满贯：CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主
✔ 技术生态共建先锋：横跨鸿蒙、云计算、AI等前沿领域的技术布道者

🏆【荣誉殿堂】
🎖 连续三年蝉联"华为云十佳博主"（2022-2024）
🎖 双冠加冕CSDN"年度博客之星TOP2"（2022&2023）
🎖 十余个技术社区年度杰出贡献奖得主

📚【知识宝库】
覆盖全栈技术矩阵：
◾ 编程语言：.NET/Java/Python/Go/Node…
◾ 移动生态：HarmonyOS/iOS/Android/小程序
◾ 前沿领域：物联网/网络安全/大数据/AI/元宇宙
◾ 游戏开发：Unity3D引擎深度解析

🚀前言

计算机视觉技术的应用，远远不止在体育运动中。

🚀一、巨变发生了

计算机视觉技术随着深度学习的持续发展而不断取得突破。2017年，谷歌发布的Transformer算法架构在自然语言处理（NLP）领域获得巨大成功，这项革命性技术很快被拓展至其他人工智能领域。正如我们在第一章所见，诺贝尔化学奖得主江珀（John Jumper）对AlphaFold进行重构，将模型架构从卷积神经网络（CNN）替换为Transformer，才实现了性能的跨越式提升。同样，谷歌也迅速将主导计算机视觉多年的CNN架构升级为Transformer，于2020年推出Vision Transformer（ViT）。ViT的命名直接体现了其架构核心——它将Transformer成功引入视觉任务，为计算机视觉带来根本性变革。

ViT的关键创新在于将输入图像切割为多个图像块（patches），每个块被嵌入为一个固定维度的向量，组成一个序列作为Transformer的输入。这一做法将高复杂度、高计算量的图像处理问题，转化为类似自然语言处理的序列建模问题，极大提升了处理效率，同时也为多模态大模型的发展奠定了基础。

ViT能够更精准地识别和理解图像中的对象——例如人脸、动植物等，还可准确解析复杂场景，如城市街道、森林或海滩，从而支撑更多实际应用。

大模型的兴起也极大推动了图像与视频生成技术的飞跃。2024年2月，OpenAI推出Sora视频生成模型，仅凭简短文本提示即可生成长达一分钟的多角色、多场景视频，其画面细节丰富、动作流畅、视觉质量堪比电影制作。Sora一经发布便引起全球轰动，其他科技巨头与创新企业也纷纷推出自研的图像与视频生成模型。用语音和文本直接生成视觉内容，正变得越来越普及。

新一代计算机视觉技术既充满挑战，也蕴含广阔的市场前景，因此吸引了全球科学家与工程师的广泛投入。与计算机语音领域类似，计算机视觉也是华人学者高度聚集的AI研究方向。在他们的推动下，中国在相关学术研究与产业落地方面取得了令人瞩目的成就。

如今，字节跳动、腾讯、科大讯飞、百度、阿里、智谱等中国AI领军企业正紧密追随微软、谷歌、Meta等国际同行的步伐。在曾涌现商汤、依图、格灵深瞳、旷视、云从等创新企业的中国计算机视觉领域，研发队伍正在迅速扩大。具备国际顶尖机构工作经验的海归人才与本土培养的优秀研究者共同创业，成为中国计算机视觉及其他AI领域创业公司的重要力量，持续增强中国企业在全球市场的竞争力。