这项由Meta FAIR和UC Berkeley联合进行的研究于2025年1月发表在arXiv预印本平台上,研究团队由Jathushan Rajasegaran、Ilija Radosavovic等多位学者组成。有兴趣深入了解的读者可以通过论文标题"An Empirical Study of Autoregressive Pre-training from Videos"在arXiv平台上找到完整论文。

当我们看电视时,大脑会根据前面的画面预测接下来可能发生什么。如果一个人正在跑步,我们能预测他的下一个动作;如果一辆车正在转弯,我们能预测它的行驶轨迹。现在,研究人员想让人工智能也具备这种能力,不仅能理解单张照片,还能像人类一样理解连续的视频画面。

这项研究的核心在于训练一个名为Toto的AI模型,让它通过观看大量视频来学习预测下一个画面。就像教孩子看图说话一样,研究团队让Toto观看了超过十万小时的视频内容,包括日常生活、运动、各种活动场景。通过这种训练,Toto不仅学会了识别图像中的物体,还学会了理解动作、预测物体的运动轨迹,甚至能在复杂场景中持续跟踪特定目标。

这种训练方式被称为"自回归预训练",本质上就是让AI通过"看前面猜后面"的游戏来学习理解世界。研究团队发现,尽管这种方法看起来很简单,没有复杂的规则和约束,但训练出的AI在各种视觉任务上都表现出色,包括图像分类、视频理解、物体跟踪,甚至机器人操作。

更有趣的是,研究人员发现AI学习视频的规律和人类学习语言的规律非常相似。当我们增加更多的计算资源和训练数据时,AI的能力会按照一定规律持续提升,就像语言模型随着规模增大而变得更聪明一样。不过,视频AI的提升速度比语言AI稍慢一些,这可能是因为视频信息比文字信息更加复杂和冗余。

一、让AI学会"看前猜后"的训练秘诀

要理解这项研究的核心方法,可以想象教一个孩子看连环画的过程。当孩子看到前几幅画后,我们会遮住后面的画面,让他猜测接下来会发生什么。Toto的训练过程本质上就是这样一个巨大规模的"看图猜后续"游戏。

研究团队首先需要将视频转换成AI能够理解的"语言"。就像我们需要将复杂的想法转换成文字来表达一样,视频也需要被转换成数字符号。他们使用了一种称为dVAE的技术,将每一帧视频画面转换成256个离散的"视觉单词"。这样,一个16帧的短视频片段就变成了4096个"单词"组成的"句子"。

在这种转换下,一张256×256像素的图片被分解成16×16个小块,每个小块用一个特定的数字代码表示。这个过程就像将一幅拼图分解成小块,然后用数字给每个小块编号。通过这种方式,原本连续的视频画面变成了离散的数字序列,为后续的AI训练奠定了基础。

Toto的核心架构采用了类似GPT语言模型的transformer结构,但专门针对视频内容进行了优化。这种结构让AI能够同时关注画面中的多个位置和时间点,就像人类看视频时能同时注意到画面中不同区域的变化一样。研究团队构建了三个不同规模的模型,参数量分别为1.2亿、2.8亿和11亿,就像训练三个不同"智力水平"的AI学生。

训练数据的规模令人惊叹。研究团队收集了包括ImageNet图像数据集、Kinetics-600动作视频、Ego4D第一人称视频,以及HowTo100M教学视频在内的海量数据。这些数据总共包含超过十万小时的视频内容和约1万亿个视觉"单词"。相当于让AI观看了几千年的电视内容,涵盖了人类生活的方方面面。

在训练过程中,每个批次的数据按照特定比例混合:20%是静态图像,10%是第一人称生活视频,10%是动作识别视频,60%是教学类视频。这种搭配就像给AI提供营养均衡的"视觉餐",确保它能够学习到不同类型的视觉模式和规律。整个训练过程使用了AdamW优化器,学习率设置为0.0003,并采用余弦衰减策略逐渐降低学习率。

二、从像素到智能:视觉信息的魔法转换

将连续的视频画面转换成AI能够理解的离散符号,这个过程充满了技术巧思。研究团队面临的第一个挑战是选择合适的"翻译器",将丰富的视觉信息转换成数字代码,同时尽可能保留重要信息。

他们比较了三种主要的转换方法。第一种是dVAE方法,将每个图像块转换成8000个可能符号中的一个,就像用8000种不同的"积木块"来重建图像。第二种是VQGAN方法,提供了1000到16000种不同的选择。第三种是连续块标准化方法,不使用离散符号,而是保持连续的数值表示。

实验结果显示,在相同分辨率下,dVAE和VQGAN的表现相当,都能达到约61%的图像分类准确率。然而,dVAE有一个重要优势:它的符号使用更加均匀。通过分析1-gram分布发现,dVAE几乎使用了所有8000个可能的符号,而VQGAN只使用了不到50%的符号。这就像一个词汇丰富的作家使用了更多样化的词汇来表达思想,而不是反复使用同样的词语。

分辨率选择也是一个关键考虑。更高分辨率意味着更多细节,但也意味着更多计算成本。研究发现,从低分辨率开始训练,然后微调到高分辨率,这种策略不仅节省了计算资源,还获得了更好的最终性能。128×128分辨率训练后微调到256×256分辨率的模型,表现甚至超过了直接用256×256分辨率训练的模型。

这种现象的原因在于RoPE位置编码的使用。RoPE允许模型在训练后适应更长的序列,就像一个学会了短篇写作的作者可以逐步适应长篇创作。当研究团队调整RoPE的基值参数从10000到50000时,模型对高分辨率的适应能力进一步提升。

在架构选择方面,研究团队比较了三种不同的模型结构。LLaMA架构表现最佳,达到53.2%的准确率,而传统的GPT2架构只有48.5%,新兴的Mamba架构为40.7%。这说明LLaMA的设计更适合视觉信息的处理,可能因为它使用了RMSNorm标准化、SwiGLU激活函数和RoPE位置编码等先进技术。

三、解码AI的"视觉大脑":不同层级的智能表现

当我们深入研究Toto模型的内部工作机制时,发现了一个有趣的现象:就像人脑的不同区域负责不同功能一样,AI模型的不同层次也展现出不同的能力特征。这个发现对理解AI如何处理视觉信息具有重要意义。

在对模型不同层次的探测中,研究团队发现了一个令人惊讶的规律。与传统的编码器-解码器结构不同,这种纯解码器模型的最佳表现出现在大约50%的深度位置。换句话说,既不是最浅层,也不是最深层,而是中间层提供了最好的视觉理解能力。

这种现象可以用一个生动的比喻来理解。如果把AI模型比作一个复杂的视觉处理工厂,那么前半部分就像工厂的原料处理车间,负责将原始的视觉信息逐步提炼和抽象,形成越来越高级的特征表示。而后半部分则像产品组装车间,将这些抽象特征重新组合,生成最终的预测结果。

这种结构特征在不同任务上表现一致。无论是图像分类、动作识别还是物体跟踪,所有模型规模都显示出相同的规律:中间层表现最优。但有一个例外值得注意,那就是机器人操作任务。在这类任务中,除了中间层表现良好外,最后几层也显示出不错的性能。

这个例外现象揭示了一个深刻的道理。机器人操作本质上是一个生成性任务,需要模型根据当前观察生成具体的动作指令。因此,那些专门训练来生成下一个视觉符号的后期层次,恰好也适合生成动作指令。这就像一个既会画画又会写字的艺术家,他用来创作文字的技能也能帮助他更好地创作绘画作品。

为了充分利用这些中间层的表示能力,研究团队采用了注意力池化技术,而不是简单的平均池化。原因在于,在自回归模型中,序列中较晚位置的符号能够"看到"更多前面的信息,就像站在山顶的人比站在山腰的人看得更远一样。注意力池化允许模型动态地给予这些"视野更广"的位置更多权重。

实验证明,注意力池化比平均池化的效果好7.9个百分点,这个提升相当可观。这种方法学习两个权重矩阵和一个查询向量,通过交叉注意力机制将所有位置的信息整合成单一的表示向量。虽然这增加了一些计算成本,但显著提升了下游任务的性能。

四、从理论到实践:全面验证AI的视觉理解能力

研究团队设计了一系列全面的测试来验证Toto模型的实际能力,这些测试覆盖了从基础图像识别到复杂视频理解的各个方面。每个测试都像是给AI学生出的不同类型的"期末考试",检验它在不同领域的学习成果。

在图像识别这个最基础的测试中,Toto在ImageNet数据集上的表现令人瞩目。基础版本达到64.7%的准确率,大型版本提升到71.1%,而10亿参数的版本更是达到了75.3%。虽然这个成绩还无法与专门设计用于判别任务的模型相比(比如DINO的80.1%),但在生成式模型中已经是相当优秀的表现。

更重要的是,当我们将Toto与同样采用自回归方式训练的iGPT模型对比时,优势就很明显了。在相似的10亿参数规模下,Toto达到75.3%的准确率,而iGPT-XL只有72%。这个4个百分点的提升证明了Toto在模型设计和训练策略上的优势。特别值得一提的是,Toto用1.1万亿视觉符号的训练数据就达到了与iGPT用更多数据训练的相当性能。

在视频理解方面,Toto展现出了更加令人印象深刻的能力。在Kinetics-400动作识别数据集上,基础版本达到59.3%,大型版本提升到65.3%,10亿参数版本更是达到74.4%。这个成绩已经接近专门设计的视频理解模型,比如VideoMAE的79.8%。考虑到Toto是一个通用模型,这个表现相当不错。

视频预测任务更能体现Toto对时间序列的理解能力。在Ego4D短期动作预测任务中,模型需要观看一个人的动作,然后预测他接下来可能与什么物体交互、进行什么操作,以及这个交互何时发生。Toto-large模型在这个任务上达到2.70的平均精度,超过了专门设计的StillFast模型的2.48分。

物体跟踪是另一个重要的测试项目。在这个任务中,模型需要在视频序列中持续跟踪特定目标,即使目标被其他物体遮挡或部分消失也要保持跟踪。Toto在DAVIS数据集上的表现相当出色,特别是在512×512高分辨率下达到62.4的J&F分数,超过了DINO等专门模型。

最令人兴奋的可能是机器人应用测试。研究团队在模拟环境中测试了四个不同的机器人操作任务:Franka机械臂抓取、Kuka机械臂抓取、Franka机械臂开柜门和Kuka机械臂开柜门。在所有四个任务中,使用Toto预训练特征的机器人都比使用传统MAE预训练特征的机器人学习得更快,达到目标性能所需的训练步数更少。

真实世界的机器人测试更加严格。研究团队使用7自由度Franka机械臂进行立方体抓取任务,Toto-base模型达到了63%的成功率,虽然略低于专门为机器人设计的MVP模型的75%,但考虑到Toto并非专门为机器人应用设计,这个成绩已经相当不错。

五、意想不到的发现:AI也有"物体永恒性"概念

在所有测试中,最有趣的发现之一是Toto在物体永恒性理解方面的能力。物体永恒性是心理学中的一个重要概念,指的是即使物体暂时从视野中消失,我们也知道它仍然存在。这是人类智力发展的一个重要里程碑,通常在婴儿8-12个月时开始显现。

研究团队使用CATER数据集来测试这种能力。在这个任务中,一个小球在场景中移动,但会被其他物体遮挡或隐藏。模型需要在看不到球的情况下,推测球的最终位置。这就像玩杯中球游戏,需要在杯子不断移动的过程中记住球在哪个杯子下面。

Toto-large模型在这个任务上表现出色,在16帧测试中达到62.8%的准确率,在32帧测试中达到72.9%的准确率。这个成绩超过了专门设计用于这类任务的V3D和TFC-V3D模型。更有趣的是,更长的视频序列(32帧vs16帧)带来了更好的性能,说明模型确实学会了利用时间信息来推理被遮挡物体的位置。

这种能力的出现是自然涌现的结果,并非研究团队特意设计。Toto通过观看大量视频自然学会了物体在空间中的连续性概念,理解了即使暂时看不到物体,它们依然遵循物理定律继续存在和移动。这种理解对于真实世界的应用至关重要,比如自动驾驶汽车需要记住被其他车辆暂时遮挡的行人位置。

除了基本的物体永恒性,Toto还展现出了更复杂的时空推理能力。在处理视频时,模型学会了预测物体的运动轨迹,理解不同物体之间的交互关系,甚至能够推断出某些因果关系。这些能力都不是通过明确的规则编程实现的,而是通过大量观看视频数据自然涌现的。

六、规模的力量:视觉AI的成长规律

就像生物学家发现动物的大脑大小与智力水平之间存在某种关系一样,研究团队发现了AI模型规模与性能之间的数学关系。这种关系被称为"缩放定律",它揭示了增加计算资源和模型参数如何转化为性能提升。

通过训练六个不同规模的模型(参数量从1480万到19亿),研究团队发现Toto遵循着明确的幂律关系:L(C) = 7.32 × C^(-0.0378)。这个公式告诉我们,当计算资源增加时,模型的损失(可以理解为"错误率")会按照特定比例下降。简单来说,投入更多计算资源确实能够带来更好的性能,而且这种提升是可预测的。

有趣的是,这个缩放规律与大型语言模型的缩放规律既相似又不同。GPT-3的缩放公式是L(C) = 2.57 × C^(-0.048),指数部分-0.048比Toto的-0.0378更大,意味着语言模型对计算资源的利用效率更高。换句话说,同样增加一倍的计算资源,语言模型的性能提升会比视觉模型更明显。

这种差异可能源于视频数据的特殊性质。视频帧之间存在大量冗余信息,相邻帧往往非常相似,这使得"预测下一帧"这个任务比"预测下一个词"相对容易一些。研究团队通过分析发现,在16帧视频序列中,第一帧的预测损失最高,后续帧的预测损失逐渐降低并趋于稳定。这说明模型很快学会了利用时间冗余来简化预测任务。

尽管视觉模型的缩放效率略低于语言模型,但这种可预测的缩放关系依然具有重要价值。它为研究团队和工程师提供了明确的指导:如果想要达到特定的性能目标,需要投入多少计算资源;如果预算有限,能够期望达到什么样的性能水平。

为了找到最优的缩放策略,研究团队使用了μ参数化技术。这种技术确保了不同规模的模型都能使用相同的学习率(2^(-7) = 0.0078125),简化了训练过程。通过系统性的实验,他们证明了线性增加模型宽度和深度是一种有效的缩放策略。

七、突破与局限:诚实面对研究的边界

每项研究都有其光辉的成就和诚实的局限,这项工作也不例外。在取得令人瞩目成果的同时,研究团队也坦诚地指出了当前方法的不足之处和未来需要改进的方向。

最明显的局限来自于训练数据的质量。由于使用了大量来自互联网的视频数据,不可避免地包含了质量参差不齐的内容。与精心策划的数据集相比,这种"野生"数据包含噪声、模糊片段、甚至错误标注的内容。这种数据质量的不一致性会影响模型的最终性能,特别是在需要精确理解的任务中。

另一个重要局限是对分词器的依赖。目前的方法需要先将连续的视频画面转换成离散的符号,然后再进行训练。这种转换过程不可避免地会丢失一些信息,就像将高清照片压缩成低分辨率图像一样。更关键的是,模型的表现上限受到分词器质量的制约。即使后续的AI学习过程再完美,也无法超越分词器本身的信息提取能力。

视频数据的冗余性也带来了挑战。相邻视频帧之间的高度相似性虽然降低了预测难度,但也可能阻碍模型学习更深层的时间模式。模型可能过度依赖简单的时间插值,而没有真正理解复杂的动态过程。这就像一个学生通过记忆相似题目的答案来应付考试,而没有真正掌握解题的原理。

在任务覆盖范围方面,当前的评估主要集中在分类、识别和跟踪等相对基础的任务上。对于更复杂的密集预测任务(如语义分割、深度估计)、细粒度识别(如区分不同品种的鸟类),以及长时间跨度的时间理解,模型的能力还没有得到充分验证。

研究团队的设计选择评估也主要基于ImageNet分类任务的表现。虽然这个任务具有一定代表性,但可能不是所有应用场景的最优配置。不同任务可能需要不同的架构设计、训练策略和数据配比,这些都需要进一步的研究和优化。

八、未来展望:视觉AI的无限可能

尽管存在这些局限,这项研究为视觉AI的发展开辟了一条充满希望的道路。它证明了简单的"看前猜后"策略能够让AI获得丰富的视觉理解能力,为构建更加通用的视觉智能系统提供了重要启发。

从技术发展角度来看,这项工作最重要的贡献是证明了视觉领域也存在类似语言模型的缩放规律。这意味着随着计算能力的提升和数据规模的扩大,视觉AI的能力将继续按照可预测的方式增长。这为未来的研究投资和技术规划提供了科学依据。

在实际应用方面,Toto展现出的多任务能力特别有价值。一个模型能够同时处理图像分类、视频理解、物体跟踪和机器人控制等不同任务,这大大降低了系统的复杂性和维护成本。未来,我们可能看到更多基于这种通用视觉模型的应用,从智能监控到自动驾驶,从医疗影像分析到增强现实。

对于机器人领域来说,这项研究特别具有启发意义。传统的机器人视觉系统往往需要针对特定任务进行精心设计和调优,而Toto展现的通用视觉能力可能让机器人更容易适应新环境和新任务。一个经过大规模视频预训练的机器人可能只需要少量特定任务的训练就能胜任复杂的操作。

在创意应用方面,具备时间理解能力的AI模型开辟了全新的可能性。从自动视频编辑、智能内容推荐,到沉浸式虚拟现实体验,这些应用都需要AI深刻理解视频内容的时空结构。Toto在这些方向上展现的潜力令人期待。

说到底,这项研究最重要的价值在于它的哲学启示:智能不一定需要复杂的规则和精巧的设计,有时候最简单的学习原理就能产生最强大的能力。就像人类婴儿通过观察世界就能自然发展出丰富的认知能力一样,AI也能通过"观看"大量视频数据自然涌现出各种智能行为。这种发现让我们对构建真正通用的人工智能系统更加乐观。

当然,距离创建能够像人类一样理解和互动世界的AI系统,我们还有很长的路要走。但这项研究无疑是朝着正确方向迈出的重要一步。它不仅推动了技术边界,更重要的是为整个领域提供了新的思考框架和研究范式。在AI快速发展的今天,这样的基础性探索具有不可估量的价值。

有兴趣深入了解技术细节的读者可以通过搜索"An Empirical Study of Autoregressive Pre-training from Videos"在学术平台上找到完整论文,其中包含了详细的实验设计、数学推导和补充分析。

Q&A

Q1:Toto模型是如何学习理解视频的?

A:Toto采用"看前猜后"的训练方式,就像教孩子看连环画一样。它观看了超过十万小时的各种视频内容,包括日常生活、运动场景等,通过不断预测下一个画面来学习理解视觉世界的规律。这种方法被称为自回归预训练,让AI自然获得了图像识别、动作理解和物体跟踪等多种能力。

Q2:为什么视觉AI的缩放效率比语言模型低?

A:主要因为视频数据的冗余性更高。相邻的视频帧往往非常相似,这使得"预测下一帧"比"预测下一个词"相对容易一些。研究发现第一帧预测最难,后续帧预测逐渐变容易,说明模型很快学会利用时间冗余。因此同样增加计算资源,视觉模型的性能提升没有语言模型那么明显。

Q3:Toto在实际应用中表现如何?

A:Toto在多个任务中都表现出色。在图像分类上达到75.3%准确率,在视频理解任务中达到74.4%,在物体跟踪和机器人操作中也超越了多个专门模型。特别值得一提的是,它展现出了"物体永恒性"理解能力,能够跟踪被遮挡的物体,这种能力是通过观看视频自然涌现的,并非特意设计。


Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐