【GitHub开源AI精选】DeepEyesV2:迈向多模态智能体的新里程碑
DeepEyesV2是一个由小红书团队开发的多模态智能体模型,旨在通过整合代码执行、网页搜索和图像操作等多种工具,实现对复杂问题的主动解决。该模型通过两阶段训练法,即冷启动阶段和强化学习阶段,使模型能够动态选择、组合和使用工具,从而在真实世界理解、数学推理和搜索密集型任务中表现出色。
系列篇章💥
目录
前言
随着人工智能技术的不断发展,多模态模型逐渐成为研究热点。小红书团队推出的DeepEyesV2,作为一款具有智能体特性的多模态模型,不仅继承了前代在视觉推理上的优势,还通过多工具协同实现了从“看图思考”到“解决问题”的跨越。

一、项目概述
DeepEyesV2是一个由小红书团队开发的多模态智能体模型,旨在通过整合代码执行、网页搜索和图像操作等多种工具,实现对复杂问题的主动解决。该模型通过两阶段训练法,即冷启动阶段和强化学习阶段,使模型能够动态选择、组合和使用工具,从而在真实世界理解、数学推理和搜索密集型任务中表现出色。
二、核心功能
(一)多模态理解
DeepEyesV2能够同时处理文本和图像信息,具备强大的多模态理解能力。它不仅能理解图像中的视觉内容,还能结合文本语义进行综合分析,从而准确把握复杂的图文场景。这种能力使其在处理包含图文信息的复杂任务时表现出色,例如在图像问答和内容创作等场景中,能够精准地提取和利用图文信息。
(二)主动工具调用
DeepEyesV2具备主动调用外部工具的能力,如代码执行环境和网络搜索。当遇到需要额外信息或复杂操作的任务时,模型能够主动调用这些工具获取支持。例如,在解决需要实时数据的任务时,它可以通过网络搜索获取最新信息;在需要进行复杂计算时,它能够调用代码执行环境完成任务。
(三)动态推理与决策
DeepEyesV2将工具调用的结果融入推理过程,通过迭代的方式逐步解决问题。它能够根据工具返回的信息动态调整推理路径,逐步完善解决方案。这种动态推理能力使其在处理复杂的多步骤任务时表现出色,能够灵活应对各种变化和不确定性,最终得出准确的结论。
(四)任务自适应
DeepEyesV2能够根据不同任务类型智能选择合适的工具。例如,在感知任务中,它更倾向于使用图像操作工具;在推理任务中,则会优先选择数值计算工具。这种任务自适应能力使其在不同场景下都能高效运行,提升任务处理的效率和准确性。
(五)复杂任务解决
DeepEyesV2通过工具的组合和迭代推理,能够解决需要多种能力协同的复杂任务。它不仅能够单独处理感知、推理或搜索任务,还能将这些能力有机结合,完成复杂的多模态任务。例如,在需要结合图像识别、网络搜索和逻辑推理的综合任务中,DeepEyesV2能够通过工具协同高效地解决问题。
三、技术揭秘
(一)两阶段训练流程
- 冷启动阶段(Cold Start)
- 数据设计:研究团队精心设计了海量的样本数据,这些数据覆盖了感知型、推理型以及长思维链任务。每个样本都包含了详细的工具使用步骤,帮助模型构建对工具运用的基础认知。
- 监督微调:使用这些样本数据对模型进行微调,使模型能够初步理解何时以及如何调用工具。这一阶段的目标是让模型在有监督的环境下学习工具调用的基本规则。
- 强化学习阶段(Reinforcement Learning)
- 策略精炼:通过强化学习,模型能够根据环境反馈动态调整工具调用策略,减少冗余调用,提升效率。
- 终极目标:在复杂场景中激发模型的创造力,使其能够灵活组合工具,增强适应性。这一阶段的目标是让模型在无监督的环境下自主优化工具调用策略,提升其在真实世界中的应用能力。
(二)工具调用与推理结合
- 主动调用工具:模型能够主动调用代码执行、网页搜索等外部工具,并将这些工具返回的结果融入推理过程。这种能力使得模型在处理复杂任务时能够借助外部资源,提升解决问题的效率和准确性。
- 跨能力协同:通过感知、搜索和推理的跨能力协同,DeepEyesV2 实现了多模态智能体的全面升级。这种协同机制不仅提升了模型的性能,还使其能够更好地适应多样化的任务场景。
四、应用场景
(一)智能问答与信息检索
DeepEyesV2能够处理用户上传的图片并结合网络搜索提供精准答案。例如,用户上传一张植物图片并询问其名称,模型通过图像识别确定植物特征,再通过网络搜索获取准确名称并返回结果。这种能力使其在智能问答系统中表现出色,能够快速准确地回答涉及图文信息的问题。
(二)教育与学习辅助
在教育领域,DeepEyesV2可以辅助学生进行作业辅导和知识探索。例如,学生上传一张数学题目图片,模型通过图像识别提取题目内容,结合推理能力给出解题步骤。它还能通过搜索提供相关知识点,帮助学生更好地理解和学习。
(三)内容创作与编辑
DeepEyesV2能够分析图片内容并提供图像编辑建议和相关文案生成。例如,用户上传一张产品图片,模型可以识别图片中的关键元素,生成优化建议,如调整亮度、对比度等。同时,它还能根据图片内容生成相关的文案描述,帮助用户快速完成内容创作。
(四)智能客服与技术支持
DeepEyesV2可以作为智能客服系统的核心,通过图像识别和网络搜索为用户提供故障诊断和咨询解答。例如,用户上传一张设备故障图片,模型识别故障特征并通过搜索获取解决方案,然后以清晰的步骤指导用户解决问题。这种能力显著提升了客服效率和用户体验。
(五)医疗健康
在医疗健康领域,DeepEyesV2能够辅助医生分析医学影像并结合网络搜索提供健康咨询和初步诊断。例如,医生上传一张X光片,模型通过图像识别分析影像特征,再通过搜索获取最新的医学研究和诊断建议,帮助医生快速做出判断。这种能力在医疗影像分析和远程医疗咨询中具有重要应用价值。
五、结语
DeepEyesV2的出现标志着多模态智能体模型在工具协同和动态推理方面取得了重要进展。通过冷启动和强化学习相结合的训练方法,DeepEyesV2能够实现多模态信息的高效整合和复杂任务的主动解决。其在真实世界理解、数学推理和搜索密集型任务中的出色表现,为多模态智能体模型的发展提供了新的思路和方向。未来,随着技术的不断进步和应用场景的拓展,DeepEyesV2有望在更多领域发挥重要作用。
六、项目地址
- 项目官网:https://visual-agent.github.io/
- GitHub仓库:https://github.com/Visual-Agent/DeepEyesV2
- arXiv技术论文:https://arxiv.org/pdf/2511.05271

🎯🔖更多专栏系列文章:AI大模型提示工程完全指南、AI大模型探索之路(零基础入门)、AI大模型预训练微调进阶、AI大模型开源精选实践、AI大模型RAG应用探索实践🔥🔥🔥 其他专栏可以查看博客主页📑
😎 作者介绍:资深程序老猿,从业10年+、互联网系统架构师,目前专注于AIGC的探索(CSDN博客之星|AIGC领域优质创作者)
📖专属社群:欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码,回复‘入群’ 即刻上车,获取邀请链接。
💘领取三大专属福利:1️⃣免费赠送AI+编程📚500本,2️⃣AI技术教程副业资料1套,3️⃣DeepSeek资料教程1套🔥(限前500人)
如果文章内容对您有所触动,别忘了点赞、⭐关注,收藏!加入我们,一起携手同行AI的探索之旅,开启智能时代的大门!
更多推荐


所有评论(0)