ViLU: Learning Vision-Language Uncertainties for Failure Prediction
本文提出ViLU框架,用于视觉语言模型(VLMs)的不确定性量化(UQ)与故障检测。针对传统最大概念匹配(MCM)方法在模糊概念下易产生高置信度错误的问题,ViLU通过分析视觉嵌入、文本嵌入及跨模态交互,构建全局不确定性表征。该框架采用事后处理方法,不修改模型内部结构,将故障预测建模为二元分类任务,使用加权交叉熵损失区分正确/错误预测。ViLU同时支持图像-标签和图像-字幕两类任务,适用于标准分类
研究方向:Image Captioning
1. 论文介绍
本文提出ViLU(Vision-Language Uncertainties),一个用于学习视觉语言不确定性量化(UQ)和检测视觉语言模型故障的事后框架。
使用VLMs进行量化(UQ)的标准方法是最大概念匹配(MCM)分数(如果模型给某个类别分的概率最大,那就认为它最有可能是正确答案),但它存在根本性的缺陷:如果多个概念之间存在歧义,原始的最大概念最大化 (MCM) 可能会对错误的预测赋予较高的置信度,并且把模型对最可能类别的置信度作为可靠性指标。
如图所示,视觉语言模型(VLM)误将“爱斯基摩犬”图像分类为“西伯利亚雪橇犬”,而且高置信度得分阻止了错误的检测。

2. 方法介绍
2.1 在视觉语言模型上进行不确定性量化的方法学
采用一种事后方法,仅依赖于视觉和文本嵌入,设计不确定性量化度量。提供不确定性估计而无需修改内部表示、进行微调或依赖于训练期间使用的损失函数。
不确定性受视觉嵌入(低图像质量、模糊特征)、文本嵌入(定义概念难以区分)和跨模态(视觉嵌入和K个候选文本嵌入之间)交互的影响。学习一个全局不确定性表示uθ(⋅)(预测输入是否会被视觉语言模型误分类)来捕捉上述三种不确定性影响。不确定性模块二元分类任务表示:

输入图像和K个候选文本嵌入表示,输出一个概率值,表示 VLM 的预测是否错误。
2.2 ViLU框架

通过整合视觉嵌入()、预测文本嵌入(
)和跨注意力生成的特定于图像条件的文本表示(
),构建任务相关的联合不确定性表征。ViLU将失败预测建模为二元分类问题,采用加权交叉熵损失直接区分正确与错误预测,而非依赖损失预测,从而实现对预训练VLMs的黑盒式后处理。
2.3 训练过程
ViLU在训练和推理过程中同时处理图像-字幕任务和图像-标签任务
图像-标签任务:利用图像和K个目标类别确定图像的预测概念类别,形成一个与批次无关的预测流程。类别的文本表示通过文本模板获得(例如,“一张[类别]的照片”),得到一组固定的文本字幕 。适用于具有预定义标签的标准分类数据集。

图像-字幕任务:为给定的输入图像分配最相似的字幕,利用图文对预测相应图像的字幕,

更多推荐


所有评论(0)