说起看图识物这件事,我们人类其实有个很有趣的本领。当你走进一家拥挤的便利店,想找一瓶特定品牌的饮料时,尽管货架上摆满了各种花花绿绿的商品,你的眼睛却能够自动"屏蔽"那些无关的干扰,快速定位到目标。但对于人工智能来说,这个看似简单的任务却成了一个不小的挑战。

中国科学院计算技术研究所的葛宇瑶、刘胜华等研究人员在2024年9月发表了一项重要研究成果,专门解决AI视觉模型在复杂场景中"分心"的问题。这项研究以"FOCUSING BY CONTRASTIVE ATTENTION: ENHANCING VLMS' VISUAL REASONING"为题发表在arXiv预印本平台上,有兴趣深入了解的读者可以通过论文编号arXiv:2509.06461v2访问完整论文。研究团队还包括来自加州大学美熹德分校的王艺维博士,以及中科院计算所的梅令瑞、毕宝龙、周玄山、姚家宇、郭嘉丰、程学旗等多位研究人员。

目前的AI视觉语言模型就像一个容易被周围环境干扰的学生。当你给它看一张复杂的图片,比如一个摆满商品的超市货架,然后问它"红色标签的瓶子是什么牌子"时,这个AI学生往往会被货架上其他花花绿绿的商品吸引注意力,最终给出错误答案。研究团队发现,视觉场景越复杂,AI的注意力就越分散,就像人在嘈杂环境中难以集中精神一样。

为了解决这个问题,研究团队开发了一种名为CARVE(Contrastive Attention Refinement for Visual Enhancement,对比注意力视觉增强)的创新方法。这种方法的巧妙之处在于,它不需要重新训练AI模型,而是通过一种对比机制来帮助AI筛选出真正重要的视觉信息。具体来说,CARVE会让AI分别在两种不同的提示下观看同一张图片:一次是给出通用的描述指令,另一次是针对具体任务的提问。通过对比这两次观看时AI的注意力分布差异,CARVE能够识别出哪些区域是任务相关的重要信息,哪些是可以忽略的视觉噪音。

实验结果令人印象深刻。在多个标准测试数据集上,CARVE都显著提升了AI模型的表现。特别是在一些能力相对有限的开源模型上,性能提升幅度达到了75%。这就好比给一个近视的学生配上了合适的眼镜,让他能够清晰地看到黑板上的重点内容。

一、视觉复杂度如何影响AI的"专注力"

要理解CARVE的工作原理,我们首先需要明白什么是视觉复杂度。就像人眼在观看不同场景时会有不同的感受一样,图像也有简单和复杂之分。研究团队将视觉复杂度分解为两个维度:纹理复杂度和颜色复杂度。

纹理复杂度可以想象成图片中边缘和轮廓线条的密集程度。一张简单的白墙照片纹理复杂度很低,而一张森林或城市街景的照片就会有很高的纹理复杂度。研究团队使用了一种叫做Canny边缘检测的技术来量化这种复杂度,这个方法就像用特殊的滤镜来突出图片中所有的边界线条。

颜色复杂度则反映了图片中色彩的丰富程度。一张只有黑白两色的简笔画色彩复杂度很低,而一幅充满各种色彩的油画作品色彩复杂度就很高。研究团队通过分析图片中色相的分布情况来计算这个指标,就像统计一个调色盘上用了多少种不同的颜色。

接下来,研究团队做了一个关键发现。他们测量了AI模型在观看不同复杂度图片时的注意力分布,发现了一个有趣的规律:视觉复杂度越高,AI的注意力就越分散。这种分散程度可以用数学中的熵来衡量,熵值越高表示注意力越不集中。

这个发现解释了为什么AI在复杂场景中表现不佳。当面对一张包含大量视觉元素的图片时,AI就像置身于一个热闹的集市,到处都有吸引眼球的东西,结果反而找不到真正需要关注的重点。研究团队通过大量实验证实,注意力熵值与AI回答问题的准确率呈现明显的负相关关系——注意力越分散,回答越容易出错。

更深入的分析揭示了AI注意力在不同网络层次中的演化规律。在网络的浅层,AI的注意力表现出全局扫描的特征,就像初来乍到的游客在大致浏览一个新环境。随着网络层次的加深,注意力逐渐从区域定位转向重点聚焦。在网络深层,注意力通常会收敛到最相关的区域上。然而,这种收敛的程度很大程度上取决于输入图像的视觉复杂度。对于简单清晰的图像,AI能够顺利实现注意力收敛;但对于复杂场景,即使在网络深层,注意力仍然保持相对分散的状态。

二、CARVE方法的核心创新

基于对AI注意力机制的深入理解,研究团队开发了CARVE方法。这个方法的核心思想可以用一个简单的类比来解释:当你想在嘈杂的餐厅里听清朋友说话时,你会下意识地过滤掉周围的背景噪音,专注于朋友的声音。CARVE做的事情本质上是类似的——帮助AI过滤掉视觉噪音,专注于任务相关的信息。

CARVE的工作流程包含三个关键步骤。第一步是让AI用通用指令观看图片,比如"请描述这张图片"。在这种通用指令下,AI的注意力主要受到图像本身的视觉特征影响,研究团队称这种注意力为"视觉噪音注意力"。第二步是让AI用具体的任务指令观看同一张图片,比如"图片中红色标签的瓶子是什么牌子"。这时AI的注意力会结合任务需求和视觉信息,研究团队称之为"任务导向注意力"。

第三步是CARVE的关键创新所在。通过对比这两种注意力分布,CARVE能够提取出纯粹的任务相关信息。这个过程就像从一杯混合果汁中分离出你最喜欢的那种水果味道。具体的数学操作是将任务导向注意力除以视觉噪音注意力,再加上一个调节参数。这个简单却巧妙的公式能够有效抑制视觉噪音的影响,突出任务相关的语义信号。

研究团队从理论上证明了这种对比机制的有效性。他们证明,AI的注意力分布可以分解为两个独立成分的乘积:一个是纯粹由图像视觉特征决定的"视觉噪音因子",另一个是由任务和图像语义关系决定的"语义信号因子"。当使用通用指令时,语义信号因子趋向于均匀分布,这意味着注意力主要由视觉噪音因子主导。而CARVE的对比操作正是利用了这一特性,通过数学变换将两个因子分离开来。

得到对比注意力图后,CARVE会将其转换为实际的视觉掩码。这个过程就像用画笔在图片上涂掉不重要的部分,只保留关键区域。CARVE会根据注意力分数选择最重要的几个区域,然后将这些区域裁剪出来并放大到原始尺寸。这样处理后的图片消除了大部分视觉干扰,让AI能够集中精力处理真正重要的内容。

三、令人瞩目的实验成果

研究团队在多个标准数据集上测试了CARVE的效果,结果令人印象深刻。这些数据集涵盖了不同类型的视觉推理任务:A-OKVQA测试常识推理能力,POPE测试对象识别准确性,V*测试细粒度视觉搜索,TextVQA测试图像中的文字识别能力。

测试涉及了四个不同的AI模型:两个来自阿里巴巴的QWEN2.5-VL模型(3B和7B参数版本)以及两个经典的LLAVA-1.5模型(7B和13B参数版本)。有趣的是,CARVE对不同模型的提升效果呈现出明显的差异化特征。能力相对有限的早期模型获得了显著更大的改善,而较新的先进模型虽然也有提升,但幅度相对较小。

具体来看,LLAVA1.5-7B模型在V*数据集上的表现提升最为显著,准确率从38.7%跃升至66.5%,相对提升幅度达到71.83%。这个结果特别有意义,因为V*数据集专门测试模型在复杂场景中定位小目标的能力,正是CARVE设计要解决的核心问题。在TextVQA数据集上,同一模型的准确率从47.8%提升到58.2%,提升了21.76%。这表明CARVE不仅能帮助模型更好地处理视觉干扰,还能提高对图像中文字信息的识别准确性。

相比之下,较新的QWEN2.5-VL-7B模型在各项测试中也都有稳定的改善,但提升幅度相对温和。在TextVQA上从75.0%提升到81.9%,在V*上从50.8%提升到59.7%。这个差异反映了一个重要现象:能力较弱的模型更容易受到视觉复杂度的干扰,因此从CARVE的对比注意力机制中获益更多。

研究团队还深入分析了CARVE中不同组件的作用效果。他们发现,使用网络深层的注意力信息比浅层更有效,这与前面关于注意力层次演化的发现一致。在时间维度上,使用生成序列末尾的注意力信息通常比开头的效果更好,因为末尾的注意力包含了更多上下文信息。

特别值得注意的是,CARVE方法具有很好的鲁棒性。研究团队测试了不同的掩码生成参数,发现在保留图像20%-60%区域、选择2-3个主要区域的设置下,模型都能获得稳定的性能提升。过度激进的掩码(只保留20%以下的区域或只选择一个区域)会导致性能下降,因为这样可能会丢失重要的视觉信息。

四、与其他方法的对比优势

为了验证CARVE的独特价值,研究团队将其与几种现有的视觉增强方法进行了对比。这些方法包括使用SAM(Segment Anything Model)进行图像分割、使用YOLO进行目标检测、使用CLIP进行视觉-语言匹配,以及最近提出的ViCrop裁剪方法。

在TextVQA数据集上的对比结果显示,CARVE以58.2%的准确率显著领先于所有对比方法。ViCrop作为最接近的竞争者,准确率为56.06%,而基于SAM的方法只达到49.42%,YOLO方法为48.84%,CLIP方法为48.55%。这些结果表明,专门针对AI注意力机制设计的CARVE方法确实比通用的视觉处理工具更有效。

从计算效率角度看,CARVE的处理时间为每张图片1.34秒,虽然比最快的YOLO方法(0.35秒)慢一些,但比需要复杂分割的SAM方法(3.33秒)要快得多,在实际应用中具有很好的实用性。更重要的是,CARVE是一种无需训练的方法,可以直接应用于现有的任何视觉语言模型,而不需要额外的模型训练或参数调整。

外部工具方法的一个根本限制是它们缺乏对具体问题的理解。比如SAM虽然能够精确分割图像中的各种物体,但它不知道哪个物体与当前问题相关。YOLO能够检测出图像中的各种目标,但同样无法判断哪个目标是用户真正关心的。相比之下,CARVE通过对比不同指令下的注意力分布,能够直接识别与特定问题相关的视觉区域,这种任务感知能力是外部工具方法无法比拟的。

五、理论基础和技术细节

CARVE方法的成功不是偶然的,而是建立在坚实的理论基础之上。研究团队从数学角度严格证明了注意力分解机制的合理性,这为方法的可靠性提供了有力支撑。

核心理论从一个关键观察开始:AI模型的注意力分布可以看作是两个因素的乘积。第一个因素是"视觉噪音因子",它完全由图像的视觉特征决定,与具体任务无关。这个因子反映了图像中不同区域天然的视觉突出度,比如亮度对比强烈的区域或纹理复杂的区域天然更容易吸引注意。第二个因素是"语义信号因子",它编码了图像内容与当前任务之间的相关程度。

当AI接收通用指令(如"描述这张图片")时,由于没有特定的任务导向,语义信号因子会趋向于在所有区域上均匀分布。这意味着通用指令下的注意力主要由视觉噪音因子决定。而在具体任务指令下,语义信号因子会在任务相关区域呈现较高数值,在无关区域保持较低数值。

基于这个理论,CARVE设计了一个简单而有效的数学操作:将任务导向注意力除以通用指令注意力,再加上一个正则化参数。这个操作的巧妙之处在于,当视觉噪音因子较大时(即该区域视觉突出但与任务无关),除法操作会削弱其影响;而当语义信号因子较大时(即该区域与任务高度相关),该区域在结果中会得到强化。

研究团队进一步证明了这个优化问题存在唯一的全局最优解,并给出了闭式解的表达。这种理论保证意味着CARVE的结果是稳定和可靠的,不会因为初始条件或随机因素的影响而产生大幅波动。

在实际实现中,CARVE需要进行三次推理过程。前两次推理用于提取注意力信息,可以在网络的中间层提前终止,无需完成整个生成过程,这大大降低了计算开销。第三次推理使用处理后的图像进行最终的问答任务。研究团队还提出了注意力缓存机制,对于同一张图片的多个问题,可以重复使用通用指令的注意力信息,进一步提高计算效率。

六、方法的适用性和局限性

CARVE方法展现出了很好的通用性和鲁棒性,但也存在一些值得注意的局限性。从适用范围来看,CARVE可以直接应用于任何基于Transformer架构的视觉语言模型,无需对模型结构进行修改或重新训练。这种即插即用的特性使其具有很强的实用价值。

方法的鲁棒性体现在多个方面。首先,在不同的数据集和任务类型上,CARVE都表现出了一致的性能提升,这说明其改进机制不是针对特定任务的过度拟合,而是抓住了视觉推理的本质问题。其次,对于不同规模和架构的模型,虽然提升幅度有所差异,但都能观察到积极的效果。最后,方法对超参数的设置不过分敏感,在合理的参数范围内都能获得稳定的结果。

然而,CARVE也面临一些挑战。最主要的限制是计算开销的增加。虽然研究团队提出了早期终止和注意力缓存等优化策略,但相比直接推理,CARVE仍然需要额外的计算资源。在实时应用场景中,这种开销可能成为限制因素。

另一个潜在局限是对通用指令选择的依赖。CARVE的效果很大程度上取决于通用指令能否真正引导模型产生与任务无关的注意力分布。研究团队通过实验确定了"写出图片的大致描述"作为最优的通用指令,但在不同语言或文化背景下,这种选择是否依然最优还需要进一步验证。

对于一些极端复杂的场景,比如包含数百个小物体的密集图像,CARVE可能仍然难以完全消除视觉干扰。这时可能需要结合其他技术手段,比如多尺度处理或层次化注意力机制。

此外,CARVE主要针对单轮问答任务设计,对于需要多轮交互或上下文记忆的复杂对话场景,其效果可能会有所降低。未来的研究可能需要考虑如何将对比注意力机制扩展到更复杂的交互模式中。

尽管存在这些局限,CARVE仍然为解决AI视觉推理中的注意力分散问题提供了一个有效且实用的解决方案。其简洁的设计理念和坚实的理论基础为后续研究奠定了良好的基础。

说到底,CARVE方法的成功在于它抓住了一个关键问题:在复杂视觉环境中,如何帮助AI模型像人类一样专注于重要信息而忽略干扰。这个看似简单的想法,通过巧妙的技术实现和严格的理论分析,转化为了一个实用的解决方案。虽然距离完全解决AI视觉推理的挑战还有距离,但CARVE为这个方向的研究提供了宝贵的洞察和有效的工具。

对于普通用户而言,CARVE的意义在于它让AI助手在处理复杂视觉场景时变得更加可靠和准确。无论是帮助视障人士理解周围环境,还是协助医生分析复杂的医学影像,或者是帮助学生解答包含图表的习题,更专注的AI视觉能力都将带来实实在在的便利。随着这类技术的不断发展和完善,我们有理由相信,AI将在视觉理解和推理方面越来越接近人类水平,为我们的日常生活带来更多帮助。

Q&A

Q1:CARVE方法的核心原理是什么?

A:CARVE通过让AI分别用通用指令和具体任务指令观看同一张图片,然后对比两次注意力分布的差异。这就像让AI先随意浏览图片,再带着问题专注查看,通过对比找出真正与任务相关的区域,过滤掉视觉干扰。

Q2:CARVE需要重新训练AI模型吗?

A:完全不需要。CARVE是一种无需训练的方法,可以直接应用于现有的任何视觉语言模型。它只是在推理过程中增加了注意力对比和图像掩码处理步骤,不需要修改模型参数或结构。

Q3:CARVE方法的计算开销大吗?

A:CARVE需要进行三次推理,会增加一定计算开销,平均每张图片处理时间约1.34秒。不过研究团队提出了优化策略,前两次推理可以提前终止,通用指令的结果还可以缓存重复使用,实际应用中开销是可控的。


Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐