实现框架:MoriFlow

github:MiroThinker

论文:https://arxiv.org/pdf/2511.11793

官网:https://dr.miromind.ai/

代码精读:

论文内容:        

        摘要

                搜索Agent 工具增强推理 + 信息检索

                1.与之前的agent通过增加模型尺寸和上下文长度不同,增加agent和环境的交互能力

                2.LLM test-time scaling可能在长思维链下存在退化风险,交互过程中利用环境反馈和外部知识获取来纠正错误和优化轨迹。

                3.通过强化学习,该模型实现了高效的交互扩展:拥有256K上下文窗口,每项任务可执行多达600次工具调用,支持持续的多回合推理和复杂的现实研究工作流。

        相关工作

                AFM

                        agent基础模型:决策、工具调用、交互能力。多数为:代码或者是搜索agent模型。

                Deep Research Models

                        复杂推理、长上下文、检索密集型任务。

        代理工作流 (agentic workflow)

                mirothinker1.0 :ReAct paradigm in single agent

        上下文管理

                在256k的上下文窗口中实现600次工具调用

                近时上下文保留:只保留近期的工具调用结果。并且工具结果也会被截断。

        数据构建

                1.多文档的QA对合成

                2.代理轨迹合成

        训练

                基于qwen2.5和qwen3

                Agentic Supervised Fine-tuning

                模型学习模仿涉及多跳推理和工具使用的专家轨迹。

                Agentic Preference Optimization

                        进一步优化决策。

                Agentic Reinforcement Learning

                使智能体能够发现创造性的解决方案,并通过直接互动和探索适应多样化的现实环境。

        局限

                交互式扩展下的工具使用质量:agent偏向于使用工具,有些使用工具决策是冗余的。

                过长的思维链:强化学习往往促使模型产生更长的响应以提高准确性,这可能导致推理链过长、重复且难以阅读。这反过来又会减慢任务完成速度,降低用户体验。

                语言混合:对于非英语输入,模型的回答可能表现出多语言混合。例如,当用户查询为中文时,模型的内部推理或中间输出可能包含英语和中文元素的混合,可能导致中文表现不佳。

                有限的沙盒能力:该模型尚未完全熟练掌握代码执行和文件管理工具的使用。它偶尔可能生成导致沙盒超时的代码或命令,或滥用代码执行工具读取网页或PDF,这些任务本应由专门的网页爬虫工具高效处理。

        结论

                我们介绍了 MiroThinker v1.0,这是一款开源研究代理,通过模型、上下文和交互式扩展推进工具增强推理。通过将扩展到交互维度,MiroThinker 展示了研究能力不仅随着模型更大或上下文更长而提升,还能通过更深更频繁的代理与环境交互来实现纠错和知识获取。我们的实验展示了交互式扩展在不同基准测试中可预测的收益,确立了交互深度作为构建下一代研究代理的第三个关键轴。我们希望 MiroThinker 为进一步探索交互尺度智能智能提供了坚实的基线和开放平台。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐