【论文速过】DeepEyes: Incentivizing “Thinking with Images“ via Reinforcement Learning

摘要：本文提出DeepEyes系统，通过“交错多模态思维链”（iMCoT）和强化学习，使AI自主学会“放大观察”的视觉推理策略。传统多模态模型依赖压缩图像和文本推理，难以捕捉细节；而DeepEyes模拟人类“看-想-再看”的观察模式，动态调用放大工具聚焦关键区域。实验表明，仅7B参数的模型在细粒度视觉问答任务中超越GPT-4o等大模型，准确率提升18.9%，且逐步学会精准使用放大镜。该方法无需人

C4Chuang

627人浏览 · 2025-12-05 15:28:04

C4Chuang · 2025-12-05 15:28:04 发布

1. 动机 (为什么要做这个？)

想象一下，你让一个侦探（AI）在这一张巨大的照片里找一只很小的蚂蚁。

现在的 AI（传统多模态模型）是这样做的：它盯着整张大图看一眼，然后闭上眼睛，开始在脑子里不停地念叨（文本推理），试图靠这一眼的记忆回答问题。但因为蚂蚁太小，它那“一眼”可能根本没看清，所以只能瞎猜。
人类是这样做的：我们会先扫视全图，发现“咦，草丛那边有点黑点”，然后走近一点（放大图片），仔细看，确认是蚂蚁后再回答。
论文的动机：作者认为现在的 AI 太依赖“纯文字思考”了，忽略了像人类一样“用眼睛思考”（Thinking with Images）。如果 AI 能学会主动“凑近看”（Zoom-in），就能解决很多细节看不清的问题。

2. 要解决的问题是什么？

这篇论文主要想解决两个痛点：

**“看不清”**：现有的模型在处理高分辨率图片或者图片里极小的物体时，效果很差，因为它们通常把大图压缩后处理，细节都丢了。
**“教不会”**：以前的方法通常需要人类手把手教 AI：“第一步先看左上角，第二步看右下角……”。这种数据很难制作。作者想解决的问题是：能不能不手把手教，让 AI 自己在不断的练习中，自己悟出“什么时候该放大看，看哪里”？ 。

3. 方法是什么？怎么解决问题的？

作者开发了一个叫 DeepEyes 的系统，它的核心秘诀是**“带奖励的自我修炼”**。

给侦探配个放大镜（工具）：
作者给 AI 装了一个“Zoom-in Tool”（放大工具）。AI 可以自己决定是否使用它。如果觉得看不清，AI 可以发出指令：“我要看坐标[x, y]的区域”，系统就会把那块区域切出来放大给它看 5。
左右互搏的思考模式（iMCoT）：
AI 学会了一种穿插式的思考：先看图 -> 写两句分析 -> 觉得不够清楚 -> 调用放大镜 -> 看新图 -> 继续分析 -> 得出结论。这种“看-想-再看-再想”的过程，就是文中提到的“交错多模态思维链” 6666。
强化学习（RL）+ 糖果奖励（Reward）：
作者没有教 AI 具体怎么做，而是制定了游戏规则：
- 如果你答对了问题，给一颗糖（奖励）。
- 如果你答对了问题，并且在过程中用对了放大镜，给两颗糖（额外奖励）。
- 这样一来，AI 为了拿到最多的糖，就会拼命尝试如何有效地使用放大镜来辅助答题，而不是瞎猜。

4. 实验是怎么验证方法的有效性的？

作者把 DeepEyes 拉到了几个高难度的考场（Benchmark）去考试，主要验证了三件事：

看得更准了吗？
在专门测试高分辨率和微小物体识别的考题（如V和 HR-Bench）中，DeepEyes（只有 70 亿参数的小模型）竟然打败了比它大得多的模型（甚至超过了 GPT-4o 在某些指标上的表现）。准确率提升非常明显，比如在V上提升了 18.9% 。
真的学会“看”了吗？
作者观察了 AI 的学习曲线，发现了一个非常有意思的进化过程：
- **第一阶段（菜鸟）**：瞎点放大镜，或者光说不练。
- **第二阶段（狂热）**：疯狂使用放大镜，不管需不需要都点一下，虽然笨，但答对率上来了。
- **第三阶段（大师）**：学会了“好钢用在刀刃上”，只在真的看不清或者不确定的时候精准放大，效率变高了。
思维模式像人吗？
实验发现 AI 真的学会了人类的招数，比如“视觉搜索”（在大图里找东西）、“视觉对比”（放大两个地方比一比）、“视觉确认”（先猜一下，再放大确认是不是）。

5. 有什么启发或者讨论补充

**不仅是“看”，更是“动脑子”：这篇论文证明了，不需要人类标注几万条完美的“操作手册”，只要给 AI 正确的激励（奖励机制）**，它自己就能学会如何使用工具。这对于未来让 AI 使用浏览器、计算器等其他工具非常有启发。
小模型的大逆袭：它证明了“眼神好（会用工具）”比“脑子大（参数多）”在某些任务上更重要。一个普通的 7B 模型配合正确的观察方法，可以战胜顶级的超大模型。
可解释性变强了：以前 AI 直接吐出一个答案，你不知道它是瞎蒙的还是真看到了。现在你可以看到 DeepEyes 放大了哪里，你就知道它当时在关注图片的哪个角落，这让 AI 的决策过程变得更透明。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Agentic AI--06--liteLLM--实战02--准Agent搭建

实现一个Quasi-Agent（准Agent）通过以上内容，应当掌握：我们做的核心是控制LLM所看见的消息（API交互方式）我们精准控制 LLM 看到生成的代码，而不是另外生成的一些文字性补充内容每一段发送给 LLM 的指令都有精准的含义上下文通过 message 记录进行特定的构建（删去了部分内容）

2048 AI社区

[x-cmd] 告别手写代码！ChatDev 2.0 正式发布：拖拽之间，万物皆可 Agent

2048 AI社区

SpringBoot + Spring AI + 向量数据库：构建企业知识库智能检索，告别信息碎片化

通过SpringBoot + Spring AI + 向量数据库的技术组合，我们可以构建一个真正智能化的企业知识库系统。这不仅能大幅提升知识检索效率，还能让企业沉淀的知识资产发挥更大的价值。在这个信息爆炸的时代，如何有效管理和利用知识资产，已经成为企业竞争力的重要组成部分。希望通过今天的分享，能为大家提供一些有价值的参考。服务端技术精选，专注分享后端开发实战技术，助力你的技术成长！