Panoptic Captioning: An Equivalence Bridge for Image and Text（NeurIPS 2025）

本文提出全景字幕新任务，旨在生成图像的全面文本描述。针对现有MLLM的局限性，研究设计了PancapEngine数据引擎（通过多检测器识别实体并生成高质量数据）和PancapChain方法（分四阶段生成字幕：实体定位、标签分配、补充发现、最终生成）。同时提出PancapScore评估指标（涵盖五个语义维度）和SA-Pancap基准测试（含人工标注测试集）。实验采用LLaVA架构，结果显示该方法能有

@轨迹@

604人浏览 · 2025-12-29 19:46:10

@轨迹@ · 2025-12-29 19:46:10 发布

研究方向：Image Captioning

1. 论文介绍

本研究提出了一种名为全景字幕的新任务，旨在寻求图像的最小文本等效表示。通过将其构建为生成图像全面文本描述的任务，迈出了实现全景字幕的第一步。

由于MLLM在解决全景图像描述任务方面的性能有限，本文提出了一个高效的数据引擎PancapEngine来生成高质量数据，并提出了一种新方法PancapChain来改进全景字幕。

1）具体而言，PancapEngine首先通过一个精细的检测套件检测图像中的各类实体，然后使用实体感知的提示生成所需的全景字幕。

2）此外，PancapChain明确地将具有挑战性的全景字幕任务分解为多个阶段，并逐步生成全景字幕。

3）还提出了一个全面的评价指标PancapScore和一个人工策划的测试集，用于可靠地评估模型。

将全景字幕任务表述为生成一个全面的文本描述（见上图左上角），全面性捕捉基本语义元素（例如，中心的狗），同时为了简洁性排除不太关键或微妙的细节（例如，地面上的微小颗粒）。

与目前通过纯文字模糊指定位置的字幕工作（例如，BLIP-2的简短字幕和ShareGPT4V的详细字幕）不同，我们的全景字幕以其文本的全面性脱颖而出。通过使用边界框准确定位实体实例。

上图（底部）显示我们的全景字幕器因更好的全面性，在从字幕进行图像“重建”方面表现得更好。

上图（右上方）显示现有的MLLMs和我们的方法在全景字幕方面的表现

2. 方法介绍

2.1 任务定义

在这项工作中，我们将全景字幕生成定义为给定图像的综合文本描述生成任务，该描述包含所有实体实例、它们各自的位置和属性、实例间的关系，以及全局图像状态。

具体来说，我们将全景标题中的语义内容分为五个维度，详细说明如下：

语义标签：分配给图像中每个实体实例的类别标签，将“实体”定义为可数对象（如人和动物）以及非形态区域（如草、天空和道路）。

位置：实体实例的空间位置，以边界框的形式表示。

属性：描述实体实例外观、状态或质量的特性或属性。属性维度涵盖广泛的语义内容类型，例如颜色、形状、材料、纹理、类型、文本渲染。

关系：图像内不同实体实例之间的连接或互动。关系维度涵盖了多种语义内容类型，例如位置关系（如A在B后面）、部分-整体关系（如A是B的一部分）以及动作关系（如A踢B）。

全局图像状态：图像的整体特征，提供对其内容的全面理解。

2.2 评估指标 PancapScore

包括标注、定位、属性、关系和全局状态这五个维度F1的分数

给定一张图片，PancapScore使用真实字幕作为参考，评估生成的全景标题的质量。首先从标题中提取所有语义内容，并将它们分为五个维度。基于提取的语义内容，PancapScore通过实体实例匹配来评估语义标签和实例定位。然后，PancapScore以问答的方式评估属性、关系和全局状态，并最终综合考虑所有五个维度获得总分。

2.3 自动化数据引擎 PancapEngine

自动化数据引擎，以生成高质量的数据。首先使用一套精细的实体检测套件来检测图像中多种类别的实体。然后，我们采用最先进的MLLMs利用实体感知的提示生成全面的全景式字幕，通过不同MLLMs之间的字幕一致性确保数据质量。

实体检测套件：

1）首先使用类无关检测器OLN来检测实体实例，得到的区域集合记为R。

2）然后，通过图像标签模型RAM为各个区域分配语义标签。对于R中的每个区域，我们从图像中裁剪出该区域并输入到RAM中获取其语义标签。

3）此外，整合了两个专门的类感知检测器（Grounding-DINO和OW-DETR），识别被OLN遗漏的实例。将OLN检测到的所有实体类别进行汇总，并将这个汇总的类别集作为输入提示提供给Grounding-DINO和OW-DETR，以实现类感知的检测。类感知检测器得到的区域集合记为R′。

4）接着，将两个集合R和R′合并，并根据交并比(IoU)去除冗余区域。由于不同检测器产生的置信度分数范围各异，我们不使用非极大值抑制来移除冗余提议。

基于图像中检测到的实体实例，构建实体感知的提示，并指导MLLMs生成全景式字幕。

如果Gemini-Exp-1121生成的字幕与相应的Qwen生成的字幕一致性低，就将其丢弃。

2.4 SA-Pancap基准测试

选择SA-1B作为数据源。SA-Pancap基准测试包含9000张训练图像和500张验证图像，这些图像都配有自动生成的全景描述字幕；还有130张测试图像，配有人类策划的全景描述字幕。

2.5 PancapChain

通过四个阶段生成全景字幕A，即实体实例定位、语义标签分配、额外实例发现、全景字幕生成，分别表示为 $S_{[Loc,Tag,Disc,Cap]}$ 。

实体实例定位（ $S_{Loc}$ ）：对于图像 $Q^v$ ，我们从真实字幕A中提取实例的边界框，并构建一个图像-文本对{ $Q^v,A^L$ }用于训练。 $A^L$ 是由所有实例的边界框组成的定位文本，用逗号连接。

语义标签分配（ $S_{Tag}$ ）：基于定位文本，提出对定位的实体实例分配语义标签。为此，从真实字幕中提取实例的语义标签，每个标签与一个边界框相关联，然后构建一个图像-文本元组{ $Q^v,A^L,A^I$ }用于训练。 $A^I$ 是由所有实例的语义标签和边界框组成的实例文本，用逗号连接。

额外实例发现（ $S_{Disc}$ ）：由于一张图片包含众多实体实例，一次性识别所有实例并非易事。因此，引入了一个额外的阶段来检测在前两个阶段中被遗漏的实例。

具体来说，对于图像 $Q^v$ ，我们构建一个用于训练的图像-文本元组{ $Q_v,A_1^I,A_2^I$ }，训练时将 $A_I$ 随机分为 $A_1^I$ （已发现的实例的框和标签）和 $A_2^I$ （待发现的其它实例）两部分。

模型的输入包含图像 + $A_1^I$ ，但不包含 $A_2^I$ ；模型需要基于图像和 $A_1^I$ 预测缺失的实例（输出 $\hat{A}_E$ ）；训练时把模型输出 $\hat{A}_E$ 与 $A_2^I$ （ground truth）比较。
全景观觉字幕生成（ $S_{Cap}$ ）：基于早期阶段识别的实体实例生成全景观觉字幕。构建一个用于训练的图像-文本元组{ $Q^v,A^I,A$ }，A是图像的真实全景观觉字幕。在推理时，首先汇总初始实例文本 $\hat A^I$ 和额外实例文本 $\hat A^E$ ，并将汇总后的实例文本包含在提示中以预测字幕 $\hat A$ 。

PancapChain的训练损失公式为： $L(\hat A^L,A^L) + L(\hat A^I,A^I) + L(\hat A^E,A^I_2) + L(\hat A,A)$ ，其中L(⋅,⋅)表示遵循LLaVA的标准自回归损失。在这四个阶段中使用了不同的提示来指导模型训练。在推理过程中，我们的模型根据提示逐步生成字幕。

3. 实验

模型采用了通用的LLaVA架构，并使用预训练的ASMv2-13B检查点进行初始化。我们使用LoRA在我们的SA-Pancap训练集上对模型进行了两个周期的微调。对于PancapScore，我们使用Qwen2.5-14B作为LLM来提取语义内容和回答问题。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2024金融AI智能体技术趋势：AI应用架构师如何设计支持多模态数据的智能化投资决策系统？

本文将从2024金融AI智能体的核心趋势——多模态数据融合出发，结合架构师的实战视角，一步步拆解“支持多模态数据的智能化投资决策系统”的设计流程。我们会覆盖从“数据采集”到“决策执行”的全链路，重点解决“多模态数据如何整合”“智能体如何理解数据”“决策如何闭环优化”三大核心问题。本文从2024金融AI智能体的核心趋势——多模态数据融合多模态数据Pipeline：将文本/数值/图像/语音转化为统一向