上海AI Lab:多模态推理数据集MMFineReason
如何通过开放、可复现的数据中心化方法缩小开源多模态大模型在复杂视觉推理能力上与闭源模型的差距?论文提出MMFineReason——首个基于强教师模型蒸馏、覆盖STEM/谜题/图表等难域、含1.8M样本与5.1B推理token的高质量开源多模态推理数据集,并验证其可显著提升小参数模型的推理性能与泛化能力。

📖标题:MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods
🌐来源:arXiv, 2601.21821v1
🌟摘要
视觉语言模型(VLM)的最新进展推动了视觉推理的重大进展。然而,开源多模态模型仍然落后于专有系统,这主要是由于缺乏高质量的推理数据。现有数据集对具有挑战性的领域(如STEM图和视觉谜题)的覆盖范围有限,并且缺乏一致的、长形式的思想链(CoT)注释,这对于引发强大的推理能力至关重要。为了弥合这一差距,我们引入了MMFineReason,这是一个大规模的多模态推理数据集,包括1.8M样本和5.1B解决方案标记,具有从Qwen3-VL-235B-A22B-Thinking提炼出的高质量推理注释。数据集通过系统的三阶段流水线建立:(1)大规模数据采集和标准化,(2)CoT基本原理生成,以及(3)基于推理质量和难度意识的综合选择。生成的数据集跨越STEM问题、视觉谜题、游戏和复杂图表,每个样本都注释有详细的、视觉接地气的推理痕迹。我们在MMFineReason上微调Qwen3-VL-Instruct以开发MMFineReason-2B/4B/8B版本。我们的模型为其大小类建立了新的最先进(SOTA)结果。值得注意的是,MMFineReason-4B成功超越Qwen3-VL-8B-Thinking,MMFineReason-8B甚至在接近Qwen3-VL-32B-Thinking的同时优于Qwen3-VL-30B-A3B-Thinking,展示了卓越的参数效率。至关重要的是,我们通过难度感知过滤策略发现了“少即是多”现象:仅7%(123K样本)的子集实现了与完整数据集相当的性能。值得注意的是,我们揭示了一种协同效应,即面向推理的数据组合同时提高了综合能力。此外,我们对训练策略和数据组合进行了全面的消融研究,为多模态推理模型开发提供了关键见解和实用配方。对于开源,我们发布了完整的数据集和模型,以促进对多模态推理的以数据为中心的策略的可重复研究。
🛎️文章简介
🔸研究问题:如何通过开放、可复现的数据中心化方法缩小开源多模态大模型在复杂视觉推理能力上与闭源模型的差距?
🔸主要贡献:论文提出MMFineReason——首个基于强教师模型蒸馏、覆盖STEM/谜题/图表等难域、含1.8M样本与5.1B推理token的高质量开源多模态推理数据集,并验证其可显著提升小参数模型的推理性能与泛化能力。
📝重点思路
🔸设计三阶段系统性数据流水线:(1)多源异构数据聚合与标准化,统一格式并清洗噪声;(2)利用Qwen3-VL-235B-A22B-Thinking生成结构化、视觉锚定的长链CoT推理轨迹;(3)基于正确性、一致性与难度(Qwen3-VL-4B通过率)进行多轮过滤,保留高质高难样本。
🔸采用“推理优先”数据构成策略,以数学(79.4%)和科学(13.8%)为主干,辅以谜题/游戏(4.6%)及少量通用OCR(2.2%),避免通用数据稀释推理监督信号。
🔸引入难度感知筛选机制,仅用7%最难样本(123K)即可达到全量数据训练效果,实现数据高效利用。
🔸在SFT后引入RL微调(GSPO算法),通过多rollout策略增强泛化能力,尤其提升图表理解与真实世界问答表现。
🔸全程使用本地部署开源模型构建数据,不依赖闭源API,保障全流程可复现与开放性。
🔎分析总结
🔸MMFineReason-4B超越Qwen3-VL-8B-Thinking,MMFineReason-8B甚至优于Qwen3-VL-30B-A3B-Thinking并逼近Qwen3-VL-32B-Thinking,证实高质量数据可大幅提升参数效率。
🔸推理导向数据具有协同增益效应:提升数学与逻辑推理能力的同时,也同步增强通用VQA、文档理解等任务表现,说明推理能力是通用多模态能力的放大器。
🔸“少即是多”现象显著:难度过滤后的123K子集性能接近全量1.8M,验证冗余简单样本对训练无实质贡献。
🔸超高清输入(2048²)对几何/图表类推理任务收益甚微,而中等分辨率(768²)更优;但对真实场景图像(如RWQA)仍需高分辨率,体现任务依赖性。
🔸图像字幕增强(CapAug)在长CoT已完备时带来边际增益甚至负向影响,表明冗余视觉描述会干扰模型聚焦推理主干。
💡个人观点
论文将“数据工程”升维为多模态推理能力构建的第一性原理,系统性揭示了数据质量、难度分布、领域构成与训练效率间的定量关系。
🧩附录



更多推荐
所有评论(0)