【论文速过】DeepEyes: Incentivizing “Thinking with Images“ via Reinforcement Learning
摘要: 本文提出DeepEyes系统,通过“交错多模态思维链”(iMCoT)和强化学习,使AI自主学会“放大观察”的视觉推理策略。传统多模态模型依赖压缩图像和文本推理,难以捕捉细节;而DeepEyes模拟人类“看-想-再看”的观察模式,动态调用放大工具聚焦关键区域。实验表明,仅7B参数的模型在细粒度视觉问答任务中超越GPT-4o等大模型,准确率提升18.9%,且逐步学会精准使用放大镜。该方法无需人
·
1. 动机 (为什么要做这个?)
想象一下,你让一个侦探(AI)在这一张巨大的照片里找一只很小的蚂蚁。
- 现在的 AI(传统多模态模型)是这样做的:它盯着整张大图看一眼,然后闭上眼睛,开始在脑子里不停地念叨(文本推理),试图靠这一眼的记忆回答问题。但因为蚂蚁太小,它那“一眼”可能根本没看清,所以只能瞎猜。
- 人类是这样做的:我们会先扫视全图,发现“咦,草丛那边有点黑点”,然后走近一点(放大图片),仔细看,确认是蚂蚁后再回答。
- 论文的动机:作者认为现在的 AI 太依赖“纯文字思考”了,忽略了像人类一样“用眼睛思考”(Thinking with Images)。如果 AI 能学会主动“凑近看”(Zoom-in),就能解决很多细节看不清的问题 。
2. 要解决的问题是什么?
这篇论文主要想解决两个痛点:
- **“看不清”**:现有的模型在处理高分辨率图片或者图片里极小的物体时,效果很差,因为它们通常把大图压缩后处理,细节都丢了。
- **“教不会”**:以前的方法通常需要人类手把手教 AI:“第一步先看左上角,第二步看右下角……”。这种数据很难制作。作者想解决的问题是:能不能不手把手教,让 AI 自己在不断的练习中,自己悟出“什么时候该放大看,看哪里”? 。
3. 方法是什么?怎么解决问题的?
作者开发了一个叫 DeepEyes 的系统,它的核心秘诀是**“带奖励的自我修炼”**。
- 给侦探配个放大镜(工具):
作者给 AI 装了一个“Zoom-in Tool”(放大工具)。AI 可以自己决定是否使用它。如果觉得看不清,AI 可以发出指令:“我要看坐标[x, y]的区域”,系统就会把那块区域切出来放大给它看 5。 - 左右互搏的思考模式(iMCoT):
AI 学会了一种穿插式的思考:先看图 -> 写两句分析 -> 觉得不够清楚 -> 调用放大镜 -> 看新图 -> 继续分析 -> 得出结论。这种“看-想-再看-再想”的过程,就是文中提到的“交错多模态思维链” 6666。 - 强化学习(RL)+ 糖果奖励(Reward):
作者没有教 AI 具体怎么做,而是制定了游戏规则:- 如果你答对了问题,给一颗糖(奖励)。
- 如果你答对了问题,并且在过程中用对了放大镜,给两颗糖(额外奖励)。
- 这样一来,AI 为了拿到最多的糖,就会拼命尝试如何有效地使用放大镜来辅助答题,而不是瞎猜。
4. 实验是怎么验证方法的有效性的?
作者把 DeepEyes 拉到了几个高难度的考场(Benchmark)去考试,主要验证了三件事:
- 看得更准了吗?
在专门测试高分辨率和微小物体识别的考题(如V和 HR-Bench)中,DeepEyes(只有 70 亿参数的小模型)竟然打败了比它大得多的模型(甚至超过了 GPT-4o 在某些指标上的表现)。准确率提升非常明显,比如在V上提升了 18.9% 。 - 真的学会“看”了吗?
作者观察了 AI 的学习曲线,发现了一个非常有意思的进化过程 :- **第一阶段(菜鸟)**:瞎点放大镜,或者光说不练。
- **第二阶段(狂热)**:疯狂使用放大镜,不管需不需要都点一下,虽然笨,但答对率上来了。
- **第三阶段(大师)**:学会了“好钢用在刀刃上”,只在真的看不清或者不确定的时候精准放大,效率变高了 。
- 思维模式像人吗?
实验发现 AI 真的学会了人类的招数,比如“视觉搜索”(在大图里找东西)、“视觉对比”(放大两个地方比一比)、“视觉确认”(先猜一下,再放大确认是不是)。
5. 有什么启发或者讨论补充
- **不仅是“看”,更是“动脑子”:这篇论文证明了,不需要人类标注几万条完美的“操作手册”,只要给 AI 正确的激励(奖励机制)**,它自己就能学会如何使用工具。这对于未来让 AI 使用浏览器、计算器等其他工具非常有启发。
- 小模型的大逆袭:它证明了“眼神好(会用工具)”比“脑子大(参数多)”在某些任务上更重要。一个普通的 7B 模型配合正确的观察方法,可以战胜顶级的超大模型 。
- 可解释性变强了:以前 AI 直接吐出一个答案,你不知道它是瞎蒙的还是真看到了。现在你可以看到 DeepEyes 放大了哪里,你就知道它当时在关注图片的哪个角落,这让 AI 的决策过程变得更透明。
更多推荐

所有评论(0)