多模态大模型-CLIP
我们探究了能否将自然语言处理(NLP)中与任务无关的网络规模预训练的成功经验迁移至其他领域。研究发现,采用该模式后,计算机视觉领域也出现了类似的现象,同时我们还探讨了这一研究方向所带来的社会影响。为优化训练目标,CLIP 模型在预训练过程中学习执行多种任务,而后可通过自然语言提示利用这种任务学习能力,实现对众多现有数据集的零样本迁移。在足够的规模下,尽管该方法仍有很大的改进空间,但其性能已可与特定
本文首发于微信公众号:人工智能与图像处理
一,CLIP
多模态大模型CLIP(Contrastive Language-Image Pre-training)由OpenAI于2021年提出,通过对比学习将图像与文本嵌入同一特征空间,实现了跨模态的语义对齐,成为多模态领域的里程碑式技术。以下从核心原理、应用场景、技术演进及挑战与趋势等方面进行综合分析:
核心原理
1.双塔架构与对比学习
CLIP采用双编码器结构:
图像编码器:基于ResNet或Vision Transformer(ViT),提取图像特征;
文本编码器:基于Transformer,处理文本特征。
两者通过线性投影映射到共享的512维嵌入空间,利用对比损失(InfoNCE)最大化匹配图像-文本对的相似度,最小化非匹配对的相似度。
2.训练数据与零样本能力
模型在4亿对互联网图像-文本数据上预训练,覆盖广泛的语义场景。通过自然语言监督,CLIP无需微调即可完成零样本分类,例如将“一张猫的照片”的文本描述直接作为分类标签。
3.数学基础
对比损失函数定义为:
其中yij表示图像与文本是否匹配,sim为余弦相似度。
应用场景
1.跨模态检索与分类
-
图像检索:通过文本描述搜索匹配图像,广泛应用于电商(如时尚单品检索)和搜索引擎。
-
零样本分类:直接利用文本标签完成图像分类,无需训练数据,支持动态扩展类别。
2.生成模型的核心组件
CLIP被集成到生成模型(如Stable Diffusion、DALL-E)中,其文本编码器将自然语言提示映射为图像生成的关键条件,实现“文生图”功能。
3.智能交互与安全监控
-
在智能问答、机器人交互中增强跨模态理解;
-
辅助监控视频分析,通过文本快速定位异常行为。
技术演进与创新
1. 数据优化与扩展
-
ALIGN:利用18亿对噪声更大的图像-文本数据,通过规模优势提升模型鲁棒性;
-
MetaCLIP:通过数据过滤策略优化训练集,限制高频词重复,显著提升性能。
2.知识增强与多语言支持
-
K-LITE:引入外部知识库(如维基词典)增强文本描述,提升细粒度分类能力;
-
LLM2CLIP:结合大语言模型(如Llama3),通过对比微调提升复杂文本处理能力,甚至使英文训练的CLIP在中文任务中超越专用模型。
3.开源与规模化探索
-
OpenCLIP:研究模型性能与数据量、算力的幂律关系,验证数据规模对多模态任务的重要性。
挑战与未来趋势
1.现存挑战
-
文本处理局限:对长文本和复杂语义理解不足;
-
数据隐私与伦理:大规模数据采集可能涉及非法内容,需更严格的过滤机制;
-
可解释性:模型决策过程缺乏透明度,影响可信度。
2.未来方向
-
多模态融合:结合语音、视频等模态,向通用人工智能(AGI)演进,如微软BEiT-3和紫东·太初三模态模型;
-
轻量化与高效微调:探索小样本学习技术,降低部署成本;
-
跨语言与文化适配:增强模型对非英语语种及文化差异的适应性。
总结
CLIP通过对比学习实现了图像与文本的深度对齐,其技术衍生品(如Stable Diffusion)推动了生成式AI的爆发。随着数据优化、知识增强及多模态融合的发展,CLIP将持续赋能更复杂的跨模态任务,成为构建通用人工智能的核心组件。未来需进一步解决伦理、可解释性等问题,以实现技术的社会化落地。
图1. CLIP方法概述。标准图像模型通常联合训练图像特征提取器和线性分类器以预测某些标签,而CLIP则联合训练图像编码器和文本编码器,用于预测一批(图像,文本)训练样本的正确配对关系。在测试时,所学的文本编码器通过嵌入目标数据集类别的名称或描述来合成零样本线性分类器。
二,论文翻译:
摘要
目前最先进的计算机视觉系统经过训练后只能预测一组固定的预定对象类别。这种受限的监督形式限制了模型的通用性和实用性,因为需要额外标注数据才能指定其他视觉概念。直接从与图像相关的原始文本中学习,为利用更广泛的监督来源提供了一种有前景的替代方案。我们证明,通过预测图像与文本描述的对应关系这一简单的预训练任务,可以高效且可扩展地从互联网收集的4亿个(图像,文本)配对数据集中从头开始学习最先进的图像表征。预训练完成后,自然语言可用于引用已学习的视觉概念(或描述新概念),从而实现模型在下游任务上的零样本迁移。我们通过在30多个现有计算机视觉数据集上的测试来评估该方法性能,涵盖OCR、视频动作识别、地理定位和多种细粒度对象分类等任务。该模型在多数任务上都展现出非平凡的迁移能力,且无需任何数据集特定训练就能与全监督基线模型竞争。例如,在未使用ImageNet数据集128万训练样本的情况下,我们的零样本模型即可达到原始ResNet-50在ImageNet上的准确率。我们在
https://github.com/OpenAI/CLIP发布了代码和预训练模型权重。
1 引言
近年来,通过直接从原始文本中学习的预训练方法彻底改变了自然语言处理(NLP)领域。任务无关的目标函数(如自回归建模和掩码语言建模)在计算规模、模型容量和数据量上跨越多个数量级的扩展,持续提升了模型能力。通过将“文本到文本”开发为标准化的输入输出接口(McCann et al., 2018; Radford et al., 2019; Raffel et al., 2019),任务无关的架构能够零样本迁移到下游数据集,无需定制化输出头或针对特定数据集进行调整。以GPT-3(Brown et al., 2020)为代表的旗舰系统,在几乎无需目标数据集训练样本的情况下,已能与专有模型在多项任务中竞争。
这些结果表明,现代预训练方法从网络规模文本集合中获得的聚合监督信号,已超越高质量人工标注的NLP数据集。然而,在计算机视觉等其他领域,基于人工标注数据集(如ImageNet,Deng et al., 2009)的预训练仍是主流方法。关键问题在于:若直接从网络文本中学习可扩展的预训练方法,能否推动计算机视觉取得类似突破?已有研究给出了积极信号。
弱监督模型与近期基于自然语言直接学习图像表征的研究之间,存在一个关键差异:规模。 本文通过大规模自然语言监督训练图像分类器,填补了这一空白并探究其特性。
关键贡献:
-
数据规模突破:得益于互联网公开的海量(图像,文本)配对数据,我们构建了包含4亿配对的新数据集。
-
方法简化与验证:提出CLIP(对比语言-图像预训练,Contrastive Language-Image Pre-training)——基于ConVIRT框架的简化版本,验证其作为自然语言监督学习的高效性。
-
可扩展性研究:训练8个不同计算规模的模型(跨度近2个数量级),发现迁移性能与计算量呈平滑可预测的函数关系。
-
多任务能力验证:CLIP在预训练中学习执行OCR、地理定位、动作识别等广泛任务,与GPT系列类似。
-
性能评估:
-
零样本迁移:在30+数据集上测试,性能与专用监督模型竞争
-
线性探针分析:CLIP超越最佳公开ImageNet模型,且计算效率更高
-
鲁棒性优势:零样本CLIP模型比同等准确率的监督ImageNet模型更鲁棒,表明任务无关模型的零样本评估更能反映其真实能力
-
影响与意义:这些发现对技术政策与伦理具有重要启示。
2 方法
2.1 自然语言监督
我们方法的核心是通过自然语言中蕴含的监督信号来学习感知能力。正如引言所述,这并非全新概念,但相关研究在术语表述上存在差异甚至矛盾,研究动机也各不相同。
我们强调,这一系列研究的共性不在于具体方法细节,而在于对自然语言作为训练信号的认知。所有这些方法本质上都从自然语言的监督中学习。尽管早期研究在使用主题模型和n-gram表征时仍需应对自然语言的复杂性,但深度上下文表征学习的进展表明,我们已具备有效利用这一丰富监督资源的工具。
相较于其他训练方式,自然语言学习具有多重潜在优势。与传统众包图像分类标注相比,自然语言监督的扩展性更强——它无需将标注转化为"机器学习兼容格式"(如经典的"N选一"多数表决"黄金标签")。相反,基于自然语言的方法能够被动地从海量互联网文本中吸收监督信号。与大多数无监督或自监督方法相比,自然语言学习的显著优势在于:它不仅学习表征,还将表征与语言相连接,从而实现灵活的零样本迁移。下文将详述我们采用的具体方法路径。
2.2. 创建一个足够大的数据集
现有研究主要使用三个数据集:MS-COCO、视觉基因组(Visual Genome)和 YFCC100M。尽管 MS-COCO 和视觉基因组是高质量的人工标注数据集,但按现代标准来看它们规模较小,每个数据集的训练照片约为 10 万张。
相比之下,其他计算机视觉系统使用多达 35 亿张 Instagram(图片分享社交应用) 照片进行训练。YFCC100M 包含 1 亿张照片,是一个可能的替代选择,但其每张图像的元数据稀疏且质量参差不齐。许多图像使用自动生成的文件名(如 “20160716 113957.JPG”)作为 “标题”,或包含相机曝光设置等 “描述”。在过滤后仅保留具有英文自然语言标题和 / 或描述的图像时,该数据集的规模缩小为原来的 1/6,仅剩下 1500 万张照片,这与 ImageNet 的规模大致相当。
自然语言监督的一个主要动机是互联网上公开可用的大量此类数据。由于现有数据集未能充分反映这种可能性,仅在这些数据集上考察结果会低估该研究方向的潜力。为解决这一问题,我们构建了一个新的数据集,包含从互联网上各种公开来源收集的 4 亿对(图像,文本)数据。为了尽可能覆盖广泛的视觉概念,我们在构建过程中搜索文本包含 50 万组查询词之一的(图像,文本)对。我们通过每个查询最多包含 2 万对(图像,文本)数据来近似实现类别平衡。最终数据集的总词数与用于训练 GPT-2 的 WebText 数据集相近。我们将此数据集称为 WIT(WebImageText)。
2.3. 选择一种高效的预训练方法
最先进的计算机视觉系统需要大量计算资源。Mahajan 等人(2018)训练 ResNeXt101-32x48d 需要 19 个 GPU 年,而 Xie 等人(2020)训练 Noisy Student EfficientNet-L2 则需要 33 个 TPUv3 核心年。考虑到这两个系统都仅针对 1000 个 ImageNet 类别进行预测,从自然语言中学习开放集合的视觉概念这一任务显得极具挑战性。在研究过程中,我们发现训练效率是成功扩展自然语言监督的关键,因此基于这一指标选择了最终的预训练方法。
图2. CLIP在零样本迁移方面比我们的图像字幕基线高效得多。尽管基于Transformer的语言模型表达能力很强,但我们发现其在零样本ImageNet分类任务上表现相对较弱。如图所示,其学习速度比预测文本词袋(BoW)编码的基线模型(Joulin等人,2016)慢3倍。将预测目标替换为CLIP的对比目标后,效率进一步提升了4倍。
我们最初的方法与 VirTex 类似,从零开始联合训练图像 CNN 和文本 Transformer 来预测图像的字幕。然而,我们在高效扩展该方法时遇到了困难。图 2 显示,一个具有 6300 万参数的 Transformer 语言模型(其计算量已达 ResNet-50 图像编码器的两倍),在识别 ImageNet 类别时的学习速度比一个简单得多的基线模型慢三倍,该基线模型仅预测相同文本的词袋编码。
这两种方法有一个关键相似点:它们都试图预测每张图像附带文本的确切词汇。由于与图像共存的描述、评论和相关文本种类繁多,这一任务极具挑战性。近期图像对比表示学习的研究发现,对比目标比等效的预测目标能学习到更好的表示。其他研究也发现,尽管图像生成模型可以学习高质量的图像表示,但其所需计算量比具有相同性能的对比模型高出一个数量级以上。基于这些发现,我们探索训练一个系统来解决可能更简单的代理任务:仅预测整体文本与图像的配对关系,而不是文本的确切词汇。从相同的词袋编码基线开始,我们在图 2 中将预测目标替换为对比目标,观察到向 ImageNet 进行零样本迁移的效率进一步提升了 4 倍。
给定一批 N 对(图像,文本)数据,CLIP 的训练目标是预测这批数据中 N×N 种可能的(图像,文本)配对中哪些是实际存在的。为此,CLIP 通过联合训练图像编码器和文本编码器来学习一个多模态嵌入空间,以最大化批内 N 对真实配对的图像和文本嵌入的余弦相似度,同时最小化 N²−N 个错误配对嵌入的余弦相似度。我们对这些相似度分数优化对称交叉熵损失。图 3 包含了 CLIP 核心实现的伪代码。据我们所知,这种批量构建技术和目标函数最早在深度度量学习领域作为多类 N 对损失被 Sohn(2016)提出,后被 Oord 等人(2018)作为 InfoNCE 损失推广到对比表示学习中,最近又被 Zhang 等人(2020)改编用于医学影像领域的(文本,图像)对比表示学习。
由于我们的预训练数据集规模庞大,过拟合并非主要问题,因此与 Zhang 等人(2020)的实现相比,CLIP 的训练细节得到了简化。我们从零开始训练 CLIP,不使用 ImageNet 权重初始化图像编码器,也不使用预训练权重初始化文本编码器。我们没有使用表示与对比嵌入空间之间的非线性投影 —— 这一改动由 Bachman 等人(2019)引入并被 Chen 等人(2020b)推广,而是仅使用线性投影将每个编码器的表示映射到多模态嵌入空间。我们未发现两个版本在训练效率上的差异,并推测非线性投影可能仅与当前仅图像自监督表示学习方法的细节协同适应。我们还移除了 Zhang 等人(2020)中的文本转换函数 tu,该函数从文本中均匀采样单个句子,因为 CLIP 预训练数据集中的许多(图像,文本)对本身就是单个句子。我们也简化了图像转换函数 tv,训练期间仅使用从调整大小后的图像中随机裁剪正方形作为数据增强。最后,控制 softmax 中 logits 范围的温度参数 τ,在训练期间作为对数参数化的乘法标量直接优化,避免将其作为超参数调整。
2.4. 选择模型并进行规模扩展
我们为图像编码器考虑了两种不同的架构。
-
第一种以 ResNet-50为基础架构,因其被广泛采用且性能经过验证。我们采用ResNet-D 改进方案和抗锯齿 rect-2 模糊池化,对原始版本进行了若干修改,还将全局平均池化层替换为注意力池化机制。注意力池化通过单层 “Transformer 式” 多头 QKV 注意力实现,其中查询基于图像的全局平均池化表示。
-
第二种架构采用了最近提出的视觉 Transformer,我们严格遵循其实现,仅做微小调整:在 Transformer 前对补丁和位置嵌入的组合添加额外的层归一化,并使用略有不同的初始化方案。
文本编码器是 Transformer,其架构修改参考了 Radford 等人(2019)的描述。基础版本为 6300 万参数的 12 层模型,隐藏层宽度 512,含 8 个注意力头。Transformer 处理文本的小写字节对编码(BPE)表示,词表大小 49152(Sennrich 等人,2015)。为提高计算效率,最大序列长度限制为 76,文本序列用 [SOS] 和 [EOS] 标记包裹,Transformer 最高层在 [EOS] 标记处的激活值作为文本的特征表示,经层归一化后线性投影到多模态嵌入空间。文本编码器使用掩码自注意力,以便保留用预训练语言模型初始化或添加语言建模作为辅助目标的能力(相关探索留作未来工作)。
以往计算机视觉研究常通过单独增加宽度或深度来扩展模型,但对于 ResNet 图像编码器,我们采用 Tan & Le(2019)的方法 —— 该研究发现,将额外计算资源分配给宽度、深度和分辨率,优于仅分配给单一维度。尽管 Tan & Le(2019)为 EfficientNet 架构调整了各维度的计算分配比例,我们采用简单基线策略:等比例分配额外计算资源以增加模型的宽度、深度和分辨率。对于文本编码器,我们仅按 ResNet 宽度的计算增量成比例扩展其宽度,完全不扩展深度,因为 CLIP 的性能对文本编码器的容量不太敏感。
2.5. 训练
我们训练了一系列 5 个 ResNet 模型和 3 个视觉 Transformer 模型。对于 ResNet,我们首先训练 ResNet-50 和 ResNet-101,然后按照 EfficientNet 的模型扩展方式再训练 3 个模型,其计算量约为 ResNet-50 的 4 倍、16 倍和 64 倍,分别记为 RN50x4、RN50x16 和 RN50x64。对于视觉 Transformer,我们训练了 ViT-B/32、ViT-B/16 和 ViT-L/14。所有模型均训练 32 个 epoch。我们使用 Adam 优化器,对除增益和偏置外的所有权重应用解耦权重衰减正则化,并使用余弦调度衰减学习率。初始超参数通过对基线 ResNet-50 模型训练 1 个 epoch 时进行网格搜索、随机搜索和手动调优组合确定。由于计算资源限制,后续对更大模型的超参数采用启发式调整。可学习温度参数 τ 初始化为 0.07,并进行裁剪以防止对数几率缩放超过 100—— 我们发现这是防止训练不稳定的必要措施。我们使用 32,768 的超大批量大小,并采用混合精度训练以加速训练并节省内存。为进一步节省内存,还使用了梯度检查点、半精度 Adam 统计量和半精度随机舍入的文本编码器权重。嵌入相似度的计算也采用分片策略,单个 GPU 仅计算其本地批次嵌入所需的部分成对相似度。最大的 ResNet 模型 RN50x64 在 592 个 V100 GPU 上训练耗时 18 天,而最大的视觉 Transformer 在 256 个 V100 GPU 上训练耗时 12 天。对于 ViT-L/14,我们还以更高的 336 像素分辨率预训练 1 个额外 epoch 以提升性能,类似 FixRes(Touvron 等人,2019),该模型记为 ViT-L/14@336px。除非另有说明,本文中所有标注为 “CLIP” 的结果均使用此模型,因其表现最佳。
3. 实验
3.1. 零样本迁移
3.1.1. 动机
在计算机视觉领域,零样本学习通常指的是图像分类中对未见物体类别的泛化研究。相反,我们以更广泛的意义使用该术语,并研究对未见数据集的泛化。我们将此作为执行未见任务的代理动机,正如零数据学习论文中所期望的那样。尽管无监督学习领域的许多研究专注于机器学习系统的表示学习能力,但我们推动将零样本迁移作为衡量机器学习系统任务学习能力的一种方式。从这个角度来看,数据集评估的是特定分布上任务的性能。然而,许多流行的计算机视觉数据集主要是由研究社区创建的,用作指导通用图像分类方法发展的基准,而不是衡量特定任务的性能。虽然可以合理地说 SVHN 数据集衡量的是谷歌街景照片分布上的街景数字转录任务,但尚不清楚 CIFAR-10 数据集衡量的 “真实” 任务是什么。不过,很清楚的是 CIFAR-10 的分布来源 ——TinyImages。在这类数据集上,零样本迁移更多是对 CLIP 在分布偏移和领域泛化方面鲁棒性的评估,而非任务泛化。
据我们所知,Visual N-Grams首次以上述方式研究了对现有图像分类数据集的零样本迁移。它也是我们所知的唯一一项使用通用预训练模型研究对标准图像分类数据集进行零样本迁移的工作,并且是将 CLIP 置于上下文环境中最合适的参考点。他们的方法学习了 142,806 个视觉 n-gram(涵盖 1 到 5-gram)的字典参数,并使用 Jelinek-Mercer 平滑的微分版本优化这些 n-gram,以最大化给定图像的所有文本 n-gram 的概率。为了执行零样本迁移,他们首先将每个数据集类别名称的文本转换为其 n-gram 表示,然后根据其模型计算概率,预测得分最高的类别。
我们将零样本迁移作为任务学习评估的研究重点,其灵感来自自然语言处理领域中展示任务学习的工作。据我们所知,Liu 等人(2018)首次将任务学习确定为 “意外副作用”,当训练生成维基百科文章的语言模型学会可靠地在语言间转写名称时。虽然 GPT-1(Radford 等人,2018)专注于将预训练作为迁移学习方法来改进监督微调,但它也包含一项消融研究,表明四种启发式零样本迁移方法的性能在预训练过程中稳步提高,且无需任何监督适应。该分析成为 GPT-2(Radford 等人,2019)的基础,后者专注于通过零样本迁移研究语言模型的任务学习能力。
3.1.2 使用 CLIP 进行零样本迁移
CLIP 经过预训练,能够预测图像与文本片段在其数据集中是否为配对样本。为了实现零样本分类,我们复用了这一能力。对于每个数据集,我们将数据集中所有类别的名称作为潜在的文本配对集合,并根据 CLIP 预测最可能的(图像,文本)配对。具体来说,我们首先通过各自的编码器计算图像的特征嵌入和可能文本集合的特征嵌入,然后计算这些嵌入的余弦相似度,通过温度参数 τ 缩放,并通过 softmax 归一化为概率分布。需要注意的是,该预测层是一个多项逻辑回归分类器,其输入和权重均经过 L2 归一化,无偏置项,且采用温度缩放。
从这一角度理解,图像编码器是计算机视觉的主干网络,用于计算图像的特征表示;而文本编码器则是一个超网络(Ha 等人,2016),它基于指定类别所代表的视觉概念的文本,生成线性分类器的权重。Lei Ba 等人(2015)首次提出了这种形式的零样本图像分类器,而从自然语言生成分类器的想法至少可以追溯到 Elhoseiny 等人(2013)。进一步来看,CLIP 预训练的每一步都可以视为优化一个随机生成的代理模型的性能,该代理模型对应一个计算机视觉数据集 —— 每个类别仅有 1 个样本,且通过自然语言描述定义了总共 32,768 个类别。
在零样本评估时,我们会在文本编码器计算出零样本分类器后对其进行缓存,并在后续所有预测中复用。这使得生成分类器的计算成本可以分摊到数据集中的所有预测任务上。
3.1.3. 与视觉 N-gram 的初步对比
略
3.1.4. 提示工程与集成
略
3.1.5. 零样本 CLIP 性能分析
由于计算机视觉领域中与任务无关的零样本分类器尚未得到充分研究,CLIP 为深入理解此类模型提供了有前景的机会。在本节中,我们对 CLIP 零样本分类器的各种特性进行了研究。首先,我们简单考察零样本分类器的性能表现。为了提供背景对比,我们将其与一个简单的现成基线模型进行比较:在标准 ResNet-50 的特征上拟合全监督、正则化的逻辑回归分类器。图 5 展示了在 27 个数据集上的对比结果。
图 5. 零样本 CLIP 可与全监督基线模型竞争。在 27 个数据集的评估套件中,零样本 CLIP 分类器在 16 个数据集上优于基于 ResNet-50 特征拟合的全监督线性分类器,其中包括 ImageNet 数据集。
零样本 CLIP 在多数情况下略微优于该基线模型,在 27 个数据集中的 16 个上取得了胜利。对单个数据集的分析揭示了一些有趣的现象:在细粒度分类任务中,性能表现差异较大。在其中两个数据集(斯坦福汽车和 Food101)上,零样本 CLIP 的性能比基于 ResNet-50 特征的逻辑回归高出 20% 以上;而在另外两个数据集(Flowers102 和 FGVCAircraft)上,零样本 CLIP 的性能则低了 10% 以上。在 OxfordPets 和 Birdsnap 数据集上,性能差距则小得多。我们推测这些差异主要源于 WIT 数据集与 ImageNet 数据集在任务特定监督量上的不同。
在 ImageNet、CIFAR10/100、STL10 和 PascalVOC2007 等 “通用” 物体分类数据集上,性能相对接近,零样本 CLIP 在所有情况下均略有优势。在 STL10 数据集上,CLIP 实现了 99.3% 的总体准确率 —— 尽管未使用任何训练样本,这似乎创下了新的技术水平。
在两个视频动作识别数据集上,零样本 CLIP 显著优于 ResNet-50:在 Kinetics700 上,CLIP 比 ResNet-50 高出 14.5%;在 UCF101 上,零样本 CLIP 的性能比 ResNet-50 的特征高出 7.7%。我们推测这是由于自然语言为涉及动词的视觉概念提供了更广泛的监督,而 ImageNet 的监督则以名词为中心的物体为主。
4. 与人类表现的对比
CLIP 与人类表现及人类学习能力相比如何?为了更好地理解人类在与 CLIP 相似的评估场景中的表现,我们针对其中一项任务对人类进行了评估。我们希望了解人类在这些任务中的零样本表现有多强,以及如果向他们展示一两个图像样本,人类表现会提升多少。这有助于我们比较人类和 CLIP 的任务难度,并识别两者之间的相关性和差异。
我们让五名不同的受试者查看了牛津 IIT 宠物数据集(Parkhi 等人,2012)测试集中的 3669 张图像,并从 37 个猫或狗品种中选择与图像最匹配的品种(如果完全不确定则选择 “我不知道”)。在零样本情况下,不向受试者提供任何品种的示例,要求他们在不使用互联网搜索的情况下尽最大能力进行标注。在单样本实验中,向受试者提供每个品种的一张示例图像;在双样本实验中,提供每个品种的两张示例图像。
一个可能的担忧是,零样本任务中人类受试者的积极性不足。但人类在 STL-10 数据集(Coates 等人,2011)上达到 94% 的高准确率,以及在注意力检查图像子集上达到 97-100% 的准确率,这增强了我们对人类受试者的信任。
有趣的是,人类仅通过每类一个训练样本,就能将性能平均值从 54% 提升至 76%,而额外增加训练样本带来的边际增益微乎其微。从无样本到单样本的准确率提升,几乎完全体现在人类原本不确定的图像上。这表明人类 “知道自己不知道什么”,并能够基于单个样本,对自己最不确定的图像更新先验知识。鉴于此,尽管 CLIP 在零样本性能方面是一种很有前景的训练策略(如图 5 所示),且在自然分布偏移测试中表现良好(如图 13 所示),但人类从少量样本中学习的方式与本文中的少样本学习方法之间仍存在显著差异。
图13. 零样本CLIP模型相比标准ImageNet模型,对分布偏移的鲁棒性更强。(左图)理想的鲁棒模型(虚线)在ImageNet分布和其他自然图像分布上表现相当。零样本CLIP模型将这种“鲁棒性差距”缩小了高达75%。图中展示了对数几率变换值的线性拟合,并通过自助法估计了95%的置信区间。(右图)可视化了香蕉类别的分布偏移情况——该类别在7个自然分布偏移数据集中的5个里均有覆盖。图中对比了表现最佳的零样本CLIP模型ViT-L/14@336px,与在ImageNet验证集上具有相同性能的ResNet-101模型的表现。
这意味着,正如 Lake 等人(2016 年)及其他研究者所指出的,仍有算法改进空间可缩小机器与人类在样本效率上的差距。由于 CLIP 的这些少样本评估未能有效利用先验知识,而人类却可以,我们推测,找到一种将先验知识合理整合到少样本学习中的方法,是 CLIP 算法改进的重要一步。据我们所知,在高质量预训练模型的特征之上使用线性分类器,已接近少样本学习的当前最优水平(Tian 等人,2020 年),这表明最佳少样本机器学习方法与人类少样本学习之间仍存在差距。
图16. 对CLIP而言最困难的问题,往往也是人类觉得最难的问题。在此我们根据CLIP正确标签的概率来对图像类别按难度进行排序。
如果绘制人类准确率与 CLIP 零样本准确率的对比图(图 16),我们会发现,CLIP 最难解决的问题对人类来说也同样困难。就错误的一致性而言,我们的假设是,这至少由两个因素导致:数据集噪声(包括标注错误的图像),以及分布外图像对人类和模型来说都难以处理。
其他略
结论
我们探究了能否将自然语言处理(NLP)中与任务无关的网络规模预训练的成功经验迁移至其他领域。研究发现,采用该模式后,计算机视觉领域也出现了类似的现象,同时我们还探讨了这一研究方向所带来的社会影响。为优化训练目标,CLIP 模型在预训练过程中学习执行多种任务,而后可通过自然语言提示利用这种任务学习能力,实现对众多现有数据集的零样本迁移。在足够的规模下,尽管该方法仍有很大的改进空间,但其性能已可与特定任务的监督模型相媲美。
三,相关地址:
论文地址:https://arxiv.org/pdf/2103.00020.pdf
代码地址:https://github.com/openai/CLIP
更多推荐
所有评论(0)