CVPR 2024|TRINS：迈向具备阅读能力的多模态语言模型

大型多模态语言模型在图像理解与编辑上表现卓越，但多数经视觉调优的模型受训练数据限制，难以理解图像中嵌入的文本。为此，本研究提出 TRINS 数据集（富含文本的图像指令数据集），核心目标是提升这类模型的文本阅读能力。该数据集基于 LAION （即大规模人工智能开放网络）构建，采用机器与人类辅助结合的混合标注策略，包含 39,153 张含文本图像、对应描述及 102,437 个问答样本，且每条标注平均

AlanT_95

699人浏览 · 2025-12-14 12:26:52

AlanT_95 · 2025-12-14 12:26:52 发布

在这里插入图片描述
论文地址：http://arxiv.org/pdf/2406.06730v1

一、论文信息

题目：TRINS: Towards Multimodal Language Models that Can Read
作者： Hongyun Zhou, Xiangyu Lu, Wang Xu, Conghui Zhu, Tiejun Zhao, Muyun YangRuiyi Zhang , Yanzhe Zhang , Jian Chen , Yufan Zhou , Jiuxiang Gu ,Changyou Chen , Tong Sun
单位：Adobe Research，Georgia Institute of Technology，State University of New York at Buffalo
会议：CVPR 2024（第四十一届国际计算机视觉与模式识别会议）

二、论文主要贡献

大型多模态语言模型在图像理解与编辑上表现卓越，但多数经视觉调优的模型受训练数据限制，难以理解图像中嵌入的文本。为此，本研究提出 TRINS 数据集（富含文本的图像指令数据集Text-Rich image INStruction dataset），核心目标是提升这类模型的文本阅读能力。该数据集基于 LAION （即大规模人工智能开放网络 Large-scale Artificial Intelligence Open Network）构建，采用机器与人类辅助结合的混合标注策略，包含 39,153 张含文本图像、对应描述及 102,437 个问答样本，且每条标注平均词数显著多于现有相关数据集，带来新的训练挑战。同时，研究提出简洁高效的 LaRA（语言 - 视觉阅读助手）架构，其擅长理解图像文本内容，在 TRINS 及其他经典基准测试中，性能均优于当前最先进的多模态语言模型。此外，通过 TRINS 在各类含文本图像的理解与生成任务上的全面评估，充分验证了该数据集的有效性。

三、论文创新点

3.1 构建富含文本的图像指令数据集（TRINS）

3.1.1 TRINS 中文档图像的采集流程

在这里插入图片描述

从网络图像中筛选出 “富含文本的图像”（比如示例中右侧的书籍封面，包含标题、作者等文本），该步骤详见方法部分的 “机器辅助的富含文本图像筛选” 。
人工标注者（Human Annotators）提供基础标注，人机协作（Human + Agent）辅助优化标注质量，最终产出 “Human Annotations（人工标注内容）”，该步骤详见方法部分的“标注的具体流程、规则、方法”。
基于人工标注内容，衍生出三个任务对应的子数据集：

Visual QA（视觉问答，对应 TRINS-VQA）
输入：人工标注内容；
输出：“问题 - 答案” 对（如示例中 “书名是什么？”“作者是谁？” 及对应回答），用于训练模型理解图像文本并回答问题。
Captioning（图像描述，对应 TRINS-Cap）
输入：人工标注内容；
输出：详细的图像描述文本（如示例中对书籍封面的场景、文字信息的完整描述），用于训练模型将含文本的图像转化为连贯文字。
Generation（图像生成，对应 TRINS-Gen）
输入：人工标注内容 + 文本边界框（Text + OCR Box）；
输出：包含文本内容 + 位置坐标的生成指令（如示例中 “Daddy, can you see the Moon?” 的文字及对应的坐标），用于训练模型生成含指定文本的图像。

3.1.2 TRINS 数据集的标注信息汇总

在这里插入图片描述
这是TRINS 数据集的标注信息汇总表，展示了该数据集在数据标注方面的核心统计指标：

图片数量：共 39,153 张
人工标注数量：与图片数一致（39,153 条），说明每张图对应 1 条人工标注
人工标注平均字数：每条标注约 65.1 个词
问答（QA）对数量：总计 102,437 对
问题平均字数：每个问题约 10.5 个词
回答平均字数：每个回答约 23.9 个词

这些数据反映了 TRINS 数据集的规模（图片、标注、QA 对的数量），以及标注内容、问答内容的文本长度特征。

3.2 视觉 - 语言阅读助手（LaRA）模型

为验证我们所构建数据集的有效性，我们采用了一种基于LLaVA的简洁模型架构，用于搭建视觉 - 语言阅读助手，具体结构如下图所示。
在这里插入图片描述

输入图像经CLIP 编码器生成图像块特征，再通过投影层转换为视觉 token；同时用OCR 工具提取图像中的文本信息。
OCR 提取的文本与用户指令（例：“图片中的书名是什么？”）合并为文本嵌入。
视觉 token 与文本嵌入共同输入大语言模型，最终生成任务结果（例：书名回答）。

四、方法

4.1 机器辅助的富含文本图像筛选

从大规模网络图像库中筛选出符合 TRINS 数据集要求的富含文本图像的完整流程，核心是 “机器筛选为主、人工优化为辅” 的半自动化策略，具体步骤如下：

数据来源
以大规模开源图像数据集 LAION-5B 为初始数据源。
分类器训练
构建二分类数据集：将自然图像与文档图像混合，形成 “含文本图像 / 不含文本图像” 的二分类样本。
模型选型与微调：采用 DiT 基础骨干网络作为分类器，在 RVL-CDIP 数据集上进行微调，使其具备预测图像是否含文本的能力。
初步筛选（机器主导）
利用训练好的分类器筛选 LAION-5B 图像，筛选出的图像同时满足 3 个条件：
图像含文本的预测概率 > 0.8；
图像含水印的概率 < 0.8；
图像含不安全内容的概率 < 0.5（后两个概率来自 LAION-5B 的元数据）。
由此构建出一个子集。由于分类器的局限性会引入噪声，我们进一步引入人工判断来优化数据集。
聚类与人工筛选（优化环节）
对初步筛选后的图像，我们从筛选后的图像中随机抽取了 20,000 张图像，基于 CLIP-ViT-B/32 视觉特征聚类为 50 个分组。在人工检视聚类结果后精心挑选出其中一个分组，该分组包含海报、封面、广告、教育文档等多样化富含文本图像的分组。该分组对应的聚类模型，最终作为 TRINS 数据集的图像筛选机制。
数据特征分析
用 CLIP（Contrastive Language–Image Pretraining，对比语言 - 图像预训练） 做分类分析，展示图像分布如下，发现书籍封面是主要类别。

用 RAM 模型（通用识别模型） 提取图像标签并生成词云，核心关键词为 “book” 和 “poster”。

尽管光学字符识别（OCR）工具的性能表现稳定，但仍可能引入噪声信息。为解决这一问题，我们同时采用 Azure Read API 与 PaddleOCR 两款工具来提取文本信息。我们在给大语言模型（LLMs）的系统提示词中，标注了 OCR 结果可能存在的不可靠性，以此指导模型生成答案确定的问题。最终，我们直接利用大语言模型的输出结果构建了 TRINS-VQA 数据集。用 Azure Read API + PaddleOCR 提取图像文本并生成词云，核心关键词为 “book” 、“author” 和 “title”。

统计光学字符识别（ OCR ）词数分布：TRINS 图像平均含 31.4 个 OCR 词，远超 TextCap（多数不足 10 词），且因小尺寸文本多，识别难度更高。

该核心方法的特点：
高效性：借助预训练模型（DiT、CLIP等）大幅降低人工标注成本，提升筛选效率；
精准性：通过多条件过滤（文本概率、水印、不安全内容）和人工优化，减少噪声数据；
多样性：筛选出的图像涵盖多种富含文本场景，满足多模态任务需求。

4.2 标注的具体流程

保障标注质量的全流程管控措施包含标注人员筛选、启发式过滤、人工审核、敏感图像筛查四个维度，具体如下：

标注人员筛选
人员资质：选用英语母语者，且具备文档标注经验，拥有 100% 任务完成率和顶级优选标注员资质。
岗前准备：先让标注员完成 200 张图像的标注任务，并提供附带多组示例的详细标注指南；采用 Labelbox 作为标注工具，同时设置质量校验问题。
启发式过滤器处理
文本提取条件：使用 EasyOCR 提取图像文本，仅保留字符数＞3、高度＞画布高度 5%、置信度分数＞0.1的文本短语。
匹配算法：针对 OCR 结果可能存在的误差，采用基于编辑距离的字符串匹配算法，在人工生成的图像描述文本中搜索每个短语的最优匹配子字符串。
评估指标：将所有提取短语的平均匹配分数作为标注质量的评估依据。
人工审核流程
分层处理标注结果：采纳指标分数高的标注结果；驳回分数最低的结果并要求返工；对其余标注结果开展人工审核。
敏感图像筛选
采用 “神经网络模型 + 人工” 的协作过滤方式，分为两步执行：
第一步：由 2-3 名工作人员进行初步筛选，剔除不适用于训练的敏感图像。
第二步：安排额外人员进行二次筛查，并邀请来自不同国家的标注人员对筛选后的图像进行核验。

4.3 关于TRINS-Cap：富含文本的图像描述

TRINS-Cap 是一个完全由人工标注完成的数据集，最终得到 39153 组图像 - 标注配对数据。该数据集被划分为训练集、验证集和测试集三个部分，样本量分别为 29153 组、5000 组和 5000 组。我们为所有标注人员提供了详尽的标注指南，确保每份标注都涵盖以下三方面内容：

（1）对图像视觉元素的详细描述；
（2）说明文本的位置、属性，并将文本内容融入标注中；
（3）可选的补充见解或概括性描述。

标注流程的核心目标，是助力人类或机器在无需直接查看图像的前提下，充分理解图像所传达的全部信息。基于此目标，TRINS 数据集标注文本的平均长度达到65.1 个单词，显著超过 COCO 数据集（10.6 个单词）与 TextCaps 数据集（12.4 个单词）。下图展示了 TRINS-Cap、COCO 和 TextCaps 这三个数据集的标注文本长度分布情况，直观体现出 TRINS-Cap 标注内容的全面性。TRINS 数据集具备更丰富的文本语境，通常能够更好地描述那些难以用简短标注文本呈现的复杂图像。因此，在 TRINS 数据集上微调的大语言模型（LLMs），可以更精准地理解包含复杂文本与版面布局的图像（验证见实验部分）。
在这里插入图片描述

4.4 关于TRINS-VQA：多模态问答

为了给 TRINS-VQA 生成高质量的视觉问答数据，我们引入了半自动标注方法。为了充分利用现有的海量高质量标注资源，我们将半自动标注整合到数据标注流程中，具体方式为借助大型语言模型（LLMs）—— 例如 OpenAI 的 GPT-4 与 Llama-70B。我们向这些大型语言模型提供了图像的光学字符识别（OCR）结果与详细描述信息，此外还为其配备了高质量的人工编写示例以及详尽的标注规则。其中一组示例聚焦于抽取式问题的设计，另一组则侧重于抽象类问题的生成，以此构建出一个类别分布更为均衡的数据集。

在已有研究的基础上，我们基于问题关键词，在下图中对指令内容进行了可视化呈现。内环展示了问题首词的分布情况，外环则呈现了通过精心设计的启发式算法提取出的关键词。问题类型依据从问题中提取的关键词进行划分。

每组问答对的单词数量，与相关研究成果进行对比结果如下。总体而言，TRINS-VQA 数据集的问题平均长度为10.5 个单词，超过了 DocVQA（8.3 个单词）、OCR-VQA（6.5 个单词）与 TextVQA（7.1 个单词）这三个数据集。同时，TRINS 数据集的答案平均长度达到23.9 个单词，显著长于同类数据集（这些数据集的答案平均长度均不足 4 个单词）。
在这里插入图片描述

这一差异的成因在于，TRINS 数据集包含更多抽象类问题，而这类问题通常对应更长的答案表述。

五、实验分析

5.1 实验配置

所有实验均在 NVIDIA A100 80GB 显卡上完成。微调过程中，我们采用余弦退火学习率调度策略，初始学习率设为 $2e^{-5}$ ，批次大小设为 32。

5.2 实验部分

5.2.1 围绕TRINS-VQA 数据集展开模型性能实验

零样本性能基准测试
实验方案：在经典基准数据集上评估 LaRA 模型的零样本性能，结果如下图。
核心结论：LaRA 在所有数据集上均实现显著性能提升；即使不引入 OCR 模块，其在多数场景下仍优于其他模型，体现出处理视觉问答任务的鲁棒性与有效性；融入 OCR 后性能进一步增强，证明大语言模型可高效利用文本信息；LaRA 凭借简洁架构，突破了预训练图像编码器的局限性，大幅提升了模型在富含文本图像任务上的表现。

ST-VQA：场景文本视觉问答（Scene Text Visual Question Answering）
OCR-VQA：OCR 视觉问答（OCR-based Visual Question Answering）
TextVQA：文本视觉问答（Text-based Visual Question Answering）
DocVQA：文档视觉问答（Document Visual Question Answering）
ChartQA：图表视觉问答（Chart-based Visual Question Answering）
InfoVQA：信息视觉问答（Information Visual Question Answering）
FUNSD：财务票据理解数据集（Form Understanding in Noisy Scanned Documents，是一个表单理解任务）
SROIE：收据理解数据集（Sales Receipts OCR and Information Extraction，是一个收据信息提取任务）

TRINS-VQA 数据集上的方法对比
评估指标设计：针对抽取式问题，采用与 WUPS（基于语义网络的文本相似度度量方法）作为评估指标；针对答案为长句的抽象类问题，选用 BLEU、ROUGE等文本相似度指标。
模型性能对比结论：
零样本推理中，融合 OCR 的 LLaVAR 表现最佳，印证了文本信息提取对任务的关键作用。
mPLUG-Owl2 与 QwenVL 在抽取式问题上表现最优，证明高分辨率编码器能显著提升模型性能。
Instruct-BLIP 在抽取式问题上效果良好，但因生成答案简洁短小，在抽象类问题上表现欠佳。

Resolution：分辨率（模型处理图像时采用的尺寸，如 224² 表示 224×224 像素）
Extract Accuracy：提取准确率（衡量模型从文本密集型图像中提取信息的精准度）
Abstract：抽象问答（对应文本生成类的问答任务，以下是其下子指标）
B@1~B@4：BLEU-1 到 BLEU-4（衡量生成文本与参考文本的匹配度，数值越高匹配度越好）
METEOR：一种综合考虑词匹配、词干匹配等的文本生成评价指标（分数越高，回答质量越优）
ROUGE：基于召回率的文本生成评价指标（常用于衡量摘要类任务的质量）
CIDEr：以图像描述为核心的评价指标（侧重生成文本的信息量与相关性）

抽象类问题的模型响应案例分析
案例展示：以下为不同模型在抽象类 TRINS-VQA 数据集上的响应示例。

各模型响应特点：Qwen-VL 的回答包含全部细节，但缺乏如人工标注标准答案般的高层次见解；mPLUG-Owl2 与 GPT-4V 两款模型均存在生成幻觉问题。

5.2.2 围绕TRINS-Cap 数据集开展图像描述任务实验

实验设计
任务目标：要求多模态大模型基于富含文本的图像生成描述文本。
数据集划分：将 TRINS-Cap 划分为训练集、验证集和测试集。
对比模型：选取 InstructBLIP、Mini-GPT4、LLaVA、LLaVAR、mPLUG-Owl2、Qwen-VL 等主流多模态模型作为基准；因 BLIP-2 在该任务中生成的描述不够全面且缺乏有效信息，故选用 InstructBLIP 作为其替代方案。
输入设置：对所有参与对比的方法，均从 10 条提示词中随机选取 3 条作为模型的输入指令，具体细节如下。
实验结果与核心结论
整体性能对比：下表的经典图像描述指标结果显示，视觉文本理解能力增强的模型，整体性能优于 LLaVA、Mini-GPT4 等通用多模态模型。
LaRA 模型不同版本的性能分析：
零样本设置下的 LaRA（在 TRINS-QA 数据集上微调）已展现出性能提升。
对比不同微调版本的 LaRA 发现，无 OCR 模块的方法文本识别能力受限，原因是 CLIP 编码器或特征投影过程会造成视觉信息丢失；解决该问题的思路包括采用在富含文本图像上训练更充分的编码器、设计更精细的模型架构，这是未来的探索方向。
当 LaRA 在 TRINS-Cap 数据集上微调后，性能显著提升，凸显了高质量人工标注数据对模型效果的关键作用。

Backbone：模型的基础大语言模型

3.案例验证
下图展示了不同模型在 TRINS-Cap 基准测试集上的生成示例，直观体现出 LaRA 具备优异的文本识别能力，以及将文本与视觉语境关联的能力，印证了 TRINS 数据集的有效性。
在这里插入图片描述

5.3 补充实验

5.3.1 实验一：TRINS 微调后模型在通用视觉任务上的性能验证

实验设计：沿用 MiniGPTv2 的评估方案，在传统视觉问答基准数据集上，对比 LaRA 与 LLaVA 的性能，结果记录于表 5。
结论：在这 4 个公共视觉基准任务中，LaRA 的综合性能优于 LLaVA
在这里插入图片描述

OKVQA：需要外部知识的视觉问答任务；
GQA：复杂场景下的视觉推理问答任务；
VSR：视觉语义推理任务；
VizWiz：针对视障用户的真实场景视觉问答任务。

5.3.2 实验二：文本到文档生成任务 —— 构建 TRINS-Gen 基准数据集

任务背景：基于扩散模型的文本到图像生成技术已取得突破，但精准文本渲染仍是难点；现有 MARIO-Eval 基准的提示词篇幅较短，无法有效评估模型处理复杂真实指令的能力。
数据集构建：
依托 TRINS-Cap 的人工标注数据，构建TRINS-Gen 基准数据集。
针对单图像难以渲染过多文字的技术痛点，过滤掉 OCR 词数超过 20 的图像，最终筛选出 2104 张高质量图像。
根据每张图像的OCR 词数和最长 OCR 字符串长度，将数据集划分为简易集和困难集，其中简易集图像的 OCR 词数均少于 9 个。
评估方案：利用各方法的公开模型检查点评估现有模型性能，核心结果见表 6，详细结果见表 9。
在这里插入图片描述

Metrics：评价指标
FID (↓)：弗雷歇 inception 距离（数值越小，生成图像的质量 / 真实性越高）；
CLIP Score (↑)：CLIP 匹配得分（数值越大，生成图像与文本描述的匹配度越高）；
OCR Acc. (↑)：OCR 准确率（数值越大，生成图像中的文字越清晰、可识别）。

在这里插入图片描述

OCR Precision (↑)：OCR 精确率（数值越大，代表 OCR 识别结果中正确识别的文字占比越高）
OCR Recall (↑)：OCR 召回率（数值越大，代表图像中实际存在的文字被 OCR 识别出来的比例越高）
OCR F-measure (↑)：OCR 的 F 值（是精确率和召回率的综合指标，数值越大，代表 OCR 的整体性能越好）