Knowledge Completes the Vision（AAAI 2026）

本文提出MERGE框架，首个针对新闻图片标题的多模态实体感知检索增强生成方法。该框架包含三个创新组件：1）构建实体中心的多模态知识库（EMKB），整合文本、视觉和结构化知识；2）采用假设性字幕引导的三阶段思维链机制实现细粒度跨模态对齐；3）通过检索驱动的多模态知识整合实现精确视觉-实体匹配。实验表明，MERGE能有效补充缺失细节，提升标题生成质量。该方法通过动态构建知识图谱和分阶段对齐策略，显著改

@轨迹@

697人浏览 · 2025-12-16 21:43:02

@轨迹@ · 2025-12-16 21:43:02 发布

研究方向：Image Captioning

论文全名：《Knowledge Completes the Vision: A Multimodal Entity-aware Retrieval-Augmented Generation Framework for News Image Captioning》

1. 论文介绍

本文引入了MERGE，首个针对新闻图片标题的多模态实体感知检索增强生成框架。MERGE构建了一个以实体为中心的多模态知识库（EMKB），整合了文本、视觉和结构化知识，实现了丰富的背景检索。它通过多阶段假设-标题策略改善跨模态对齐，并通过图像内容引导的动态检索提升视觉实体匹配效果。

MERGE引入了三个关键创新：

1）信息增强：MERGE构建了一个以实体为中心的多模态知识库，整合了命名实体、图像和结构化背景知识，补充文章中缺失的细节。

2）细粒度跨模态对齐：MERGE引入了假设性字幕引导的多模态对齐，该机制采用了一个三阶段的思维链（CoT）提示机制。这种结构化的推理过程使得视觉线索与文本细节之间能够准确匹配，包括细微差别。

3）精确的视觉-实体对齐：MERGE采用了检索驱动的多模态知识整合，动态检索多模态证据并从多模态知识库构建背景知识图谱，能够在视觉上区分相似的个体并保持精确的实体关联。

2. 方法介绍

MERGE包含三个核心组件：

1）以实体为中心的多模态知识库（EMKB）：整合命名实体、图像和背景知识，以消除信息差距并加强上下文关联。

2）假设字幕引导的多模态对齐（HCMA）：通过一个三阶段的思维链（CoT）提示过程，在视觉和文本输入之间实现细粒度的句子级对齐。

3）检索驱动的多模态知识整合（RMKI）：通过匹配视觉线索与实体，并从EMKB动态构建背景知识图谱，提高视觉-实体关联的准确性。

2.1 以实体为中心的多模态知识库构建

$e_i$ 是第 $i$ 个实体，{ $I_j$ }是其关联的图像， $b_i$ 表示背景知识， $G_{sub}^i$ 是其结构化知识子图。

1）实体提取和图片收集：实体从数据集中提取，图片为维基百科获取

2）背景知识的获取：从网上获取

3）结构化知识子图构建

2.2 假设性字幕引导的多模态对齐

通过三阶段的CoT提示过程来解决句子级别的跨模态对齐问题:

第一阶段：假设标题生成，该标题包含了输入图像I和文章T的视觉和文本线索。

第二阶段：选择相关句子，从T中选择最相关的句子S来精炼上下文。

第三阶段：全局摘要生成。

通过整合S的本地语境和U的全局语境，HCMA生成精确且语境丰富的字幕。

2.3 检索驱动的多模态知识整合

1）实体匹配

RMKI通过两个途径将图像I中的视觉线索与EMKB B中存储的实体进行匹配：

面部图像：使用InsightFace将I中检测到的面部编码为特征向量F。RMKI计算每个向量y与EMKB B图像 $I_j$ 中的面部向量 $x_j$ 的余弦相似度：

从 $I_{j^*}$ 中匹配的实体随后被提取出来形成实体集E。

非人脸图像：对于没有人脸的图像，RMKI利用CLIP的图像编码器生成视觉嵌入。使用余弦相似度来识别最接近的匹配图像 $I_j$ ，从而得出实体集E。

2）背景知识图谱构建

命名实体识别：使用spaCy在S中识别命名实体 $E_{sen}$

关系抽取：使用带有专门提示 $pr$ 的大型语言模型（LLM）来抽取 $E_{sen}$ 中实体间的关系R，形成基础关系图 $G_{base}$

子图检索：对于每个实体 $e \in Esen$ ，从EMKB B中检索知识子图 $G_{sub}^i$ 并将它们聚合成一个集合Φ。

图集成：将子图Φ集成到 $G_{base}$ e中，去除重叠的节点和边，以生成最终的知识图谱G。

2.4 caption生成

给定一张图片I和一篇新闻报道T，MERGE的步骤如下：首先，HCMA生成一个假设标题 $\hat{h}$ ，选择相关句子S，并创建一个全局摘要U。其次，RMKI将图片I与实体E匹配，并构建一个背景知识图谱G。最后，采用InstructBLIP进行标题生成，并用一个四层图注意力网络来编码图谱G，整合多模态输入： $X=\{I,\hat{h},S,U,E,G\}$ )，以生成最终标题 $\hat{c}$ ：

交叉熵（CE）损失：

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2025最新！9个AI论文平台测评：继续教育科研写作全攻略

2048 AI社区

学长亲荐8个AI论文工具，MBA论文写作必备！

2048 AI社区

CSS逻辑革命：原生if()函数如何重塑我们的样式编写思维

CSS原生if()函数的引入标志着样式开发范式的重大转变。该特性通过与style()、media()、supports()三大核心函数的结合，为组件状态管理、响应式布局和渐进增强提供了原生解决方案。相比传统的类名切换、媒体查询嵌套和预处理器逻辑，if()函数实现了更简洁、更易维护的声明式样式编写方式。文章通过组件开发实例，展示了如何利用这一特性构建智能Alert组件，并探讨了在AI编程时代掌握这一