研究方向:Image Captioning

1. 论文介绍

本研究提出了一种名为全景字幕的新任务,旨在寻求图像的最小文本等效表示 。通过将其构建为生成图像全面文本描述的任务,迈出了实现全景字幕的第一步。

由于MLLM在解决全景图像描述任务方面的性能有限,本文提出了一个高效的数据引擎PancapEngine来生成高质量数据,并提出了一种新方法PancapChain来改进全景字幕。

1)具体而言,PancapEngine首先通过一个精细的检测套件检测图像中的各类实体,然后使用实体感知的提示生成所需的全景字幕。

2)此外,PancapChain明确地将具有挑战性的全景字幕任务分解为多个阶段,并逐步生成全景字幕。

3)还提出了一个全面的评价指标PancapScore和一个人工策划的测试集,用于可靠地评估模型。 

将全景字幕任务表述为生成一个全面的文本描述(见上图左上角),全面性捕捉基本语义元素(例如,中心的狗),同时为了简洁性排除不太关键或微妙的细节(例如,地面上的微小颗粒)。

与目前通过纯文字模糊指定位置的字幕工作(例如,BLIP-2的简短字幕和ShareGPT4V的详细字幕)不同,我们的全景字幕以其文本的全面性脱颖而出。通过使用边界框准确定位实体实例。

上图(底部)显示我们的全景字幕器因更好的全面性,在从字幕进行图像“重建”方面表现得更好。

上图(右上方)显示现有的MLLMs和我们的方法在全景字幕方面的表现

2. 方法介绍

2.1 任务定义

在这项工作中,我们将全景字幕生成定义为给定图像的综合文本描述生成任务,该描述包含所有实体实例、它们各自的位置和属性、实例间的关系,以及全局图像状态

具体来说,我们将全景标题中的语义内容分为五个维度,详细说明如下:

语义标签:分配给图像中每个实体实例的类别标签,将“实体”定义为可数对象(如人和动物)以及非形态区域(如草、天空和道路)。

位置:实体实例的空间位置,以边界框的形式表示。

属性:描述实体实例外观、状态或质量的特性或属性。属性维度涵盖广泛的语义内容类型,例如颜色、形状、材料、纹理、类型、文本渲染。

关系:图像内不同实体实例之间的连接或互动。关系维度涵盖了多种语义内容类型,例如位置关系(如A在B后面)、部分-整体关系(如A是B的一部分)以及动作关系(如A踢B)。

全局图像状态:图像的整体特征,提供对其内容的全面理解。

2.2 评估指标 PancapScore

包括标注、定位、属性、关系和全局状态这五个维度F1的分数

给定一张图片,PancapScore使用真实字幕作为参考,评估生成的全景标题的质量。首先从标题中提取所有语义内容,并将它们分为五个维度。基于提取的语义内容,PancapScore通过实体实例匹配来评估语义标签和实例定位。然后,PancapScore以问答的方式评估属性、关系和全局状态,并最终综合考虑所有五个维度获得总分。

2.3 自动化数据引擎 PancapEngine

自动化数据引擎,以生成高质量的数据。首先使用一套精细的实体检测套件来检测图像中多种类别的实体。然后,我们采用最先进的MLLMs利用实体感知的提示生成全面的全景式字幕,通过不同MLLMs之间的字幕一致性确保数据质量。

实体检测套件:

1)首先使用类无关检测器OLN来检测实体实例,得到的区域集合记为R。

2)然后,通过图像标签模型RAM为各个区域分配语义标签。对于R中的每个区域,我们从图像中裁剪出该区域并输入到RAM中获取其语义标签。

3)此外,整合了两个专门的类感知检测器(Grounding-DINO和OW-DETR),识别被OLN遗漏的实例。将OLN检测到的所有实体类别进行汇总,并将这个汇总的类别集作为输入提示提供给Grounding-DINO和OW-DETR,以实现类感知的检测。类感知检测器得到的区域集合记为R′。

4)接着,将两个集合R和R′合并,并根据交并比(IoU)去除冗余区域。由于不同检测器产生的置信度分数范围各异,我们不使用非极大值抑制来移除冗余提议。

基于图像中检测到的实体实例,构建实体感知的提示,并指导MLLMs生成全景式字幕。

如果Gemini-Exp-1121生成的字幕与相应的Qwen生成的字幕一致性低,就将其丢弃。

2.4 SA-Pancap基准测试

选择SA-1B作为数据源。SA-Pancap基准测试包含9000张训练图像和500张验证图像,这些图像都配有自动生成的全景描述字幕;还有130张测试图像,配有人类策划的全景描述字幕。

2.5 PancapChain

通过四个阶段生成全景字幕A,即实体实例定位、语义标签分配、额外实例发现、全景字幕生成,分别表示为S_{[Loc,Tag,Disc,Cap]}

实体实例定位(S_{Loc}):对于图像Q^v,我们从真实字幕A中提取实例的边界框,并构建一个图像-文本对{Q^v,A^L}用于训练。A^L是由所有实例的边界框组成的定位文本,用逗号连接。

语义标签分配(S_{Tag}):基于定位文本,提出对定位的实体实例分配语义标签。为此,从真实字幕中提取实例的语义标签,每个标签与一个边界框相关联,然后构建一个图像-文本元组{Q^v,A^L,A^I}用于训练。A^I是由所有实例的语义标签和边界框组成的实例文本,用逗号连接。

额外实例发现(S_{Disc}):由于一张图片包含众多实体实例,一次性识别所有实例并非易事。因此,引入了一个额外的阶段来检测在前两个阶段中被遗漏的实例。

具体来说,对于图像Q^v,我们构建一个用于训练的图像-文本元组{Q_v,A_1^I,A_2^I​},训练时将A_I随机分为A_1^I(已发现的实例的框和标签)和A_2^I(待发现的其它实例)两部分。

模型的输入包含图像 + A_1^I,但不包含 A_2^I;模型需要基于图像和 A_1^I预测缺失的实例(输出 \hat{A}_E);训练时把模型输出 \hat{A}_E​ 与 A_2^I(ground truth)比较。
全景观觉字幕生成(S_{Cap}):基于早期阶段识别的实体实例生成全景观觉字幕。构建一个用于训练的图像-文本元组{Q^v,A^I,A},A是图像的真实全景观觉字幕。在推理时,首先汇总初始实例文本\hat A^I和额外实例文本\hat A^E,并将汇总后的实例文本包含在提示中以预测字幕\hat A

PancapChain的训练损失公式为:L(\hat A^L,A^L) + L(\hat A^I,A^I) + L(\hat A^E,A^I_2) + L(\hat A,A),其中L(⋅,⋅)表示遵循LLaVA的标准自回归损失。在这四个阶段中使用了不同的提示来指导模型训练。在推理过程中,我们的模型根据提示逐步生成字幕。

3. 实验

模型采用了通用的LLaVA架构,并使用预训练的ASMv2-13B检查点进行初始化。我们使用LoRA在我们的SA-Pancap训练集上对模型进行了两个周期的微调。对于PancapScore,我们使用Qwen2.5-14B作为LLM来提取语义内容和回答问题。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐