从原理到部署：这可能是目前最强的开源搜索Agent｜MiroThinker完全指南

MiroThinker是一个开源的搜索Agent，通过创新的Interactive Scaling理念，让30B参数的小模型在复杂研究任务上超越万亿参数商业模型。它训练AI像研究员一样主动求证、多轮验证和综合分析，解决了大模型的知识时效性和幻觉问题。文章深度解析了其技术架构、训练方法和部署指南，展示了在BrowseComp等基准测试中的优异表现和低成本优势。

莫潇羽

675人浏览 · 2026-01-09 17:50:05

莫潇羽 · 2026-01-09 17:50:05 发布

深度解析：MiroThinker搜索Agent完全指南——让小模型也能完成高难度研究任务

这篇文章来自 源码七号站，一个专注于分享AI&新自媒体&电商&源码等干货知识的公益社区。如果你对前沿AI技术和互联网感兴趣，欢迎持续关注我们的更新。

写在前面

最近一段时间，我在GitHub上发现了一个让我眼前一亮的项目。说实话，作为一个在AI领域摸爬滚打了好几年的老兵，能让我感到「惊艳」的东西已经不多了。但这个项目确实做到了——它叫MiroThinker，一个开源的搜索Agent。

为什么说它惊艳？因为它打破了我们对AI模型「越大越好」的固有认知。它用30B参数的模型，在多个权威测试基准上超越了拥有万亿参数的商业模型。这就好比一个普通选手，用更少的资源打败了装备精良的职业战队。

今天这篇文章，源码七号站将从技术原理到实际操作，给大家做一次全面而深入的拆解。无论你是AI从业者、技术爱好者，还是刚入门的小白，相信都能从中获得不少收获。

第一章：搜索Agent到底在解决什么问题

在深入MiroThinker之前，我们需要先理解一个更基本的问题：为什么我们需要搜索Agent？

传统AI模型的困境

现在的大语言模型（LLM）面临一个很尴尬的处境。

一方面，它们确实很强大。你问它历史事件、科学原理、代码逻辑，它都能给出相当不错的回答。

但另一方面，它们也有明显的短板：

第一，知识有时效性。所有大模型都有一个「知识截止日期」，它们只知道训练数据中包含的内容。你问它2025年最新的行业动态，它只能根据过去的信息做推测，而不是告诉你真实发生了什么。

第二，复杂问题容易出错。当问题涉及多个知识点的交叉、需要从多个来源综合信息时，模型往往会「一本正经地胡说八道」。这在学术界有个专业术语叫「幻觉」（Hallucination）。

第三，缺乏验证机制。模型生成答案时，本质上是在做概率预测——选择它认为最可能的下一个词。但「概率最高」不等于「事实正确」。模型自己也没有办法判断自己说的对不对。

人类研究员是怎么工作的

如果我们观察一个专业研究员是怎么解决复杂问题的，会发现他们的工作方式和AI模型截然不同。

假设你让一个研究员调研「2026年全球AI大模型市场竞争格局」，他会怎么做？

首先，他会把这个大问题拆解成若干个小问题：主要玩家有哪些？各家的最新产品是什么？市场份额如何分布？有没有新入场的黑马？监管政策对格局有什么影响？

然后，他会针对每个小问题去查资料。可能要浏览几十个网站，阅读上百篇报道，交叉验证不同来源的信息。

在这个过程中，他可能会发现原来的假设是错的，需要调整研究方向。比如原本以为某家公司已经掉队了，但查资料发现它最近发布了很有竞争力的产品。

最终，他会把所有验证过的信息整合起来，形成一份有理有据的研究报告。

这个过程有几个关键特点：主动求证、多轮验证、不断修正、综合分析。

搜索Agent的使命

搜索Agent要做的，就是让AI也能像研究员那样工作。

它不是简单地把搜索功能接入到模型里。市面上很多产品都能做到「联网搜索」，但大多数只是在用户提问后做一次搜索，把搜索结果塞给模型，让模型基于这些结果生成答案。

真正的搜索Agent需要具备更强的能力：

能够规划搜索策略，知道先查什么后查什么
能够判断搜索结果的质量，知道哪些信息可信哪些需要怀疑
能够根据已获得的信息调整后续的搜索方向
能够在多轮搜索之间建立联系，做综合分析
能够识别出自己什么时候找到了可靠答案，什么时候还需要继续查

这就是MiroThinker在做的事情。它不只是一个「能上网的AI」，而是一个「懂得如何做研究的AI」。

第二章：MiroThinker的核心创新——Interactive Scaling

要理解MiroThinker为什么厉害，我们需要先了解AI领域的一个核心概念：Scaling Law（规模法则）。

传统Scaling Law的思路

过去几年，AI大模型的发展遵循一个基本规律：模型越大，效果越好。

这个规律是OpenAI在2020年提出的。简单来说，只要你持续增加模型参数量、训练数据量和计算资源，模型的性能就会稳定提升。

基于这个规律，各大公司开始了参数军备竞赛。GPT-3有1750亿参数，GPT-4据传有万亿参数级别。国内的模型也是越做越大，动辄几百亿、上千亿参数。

这种做法确实有效，但也带来了巨大的成本。训练一个千亿参数的模型可能需要数亿美元的投入，推理成本也居高不下。而且越来越多的研究表明，单纯增加参数的边际效益正在递减——你把参数从1000亿增加到2000亿，性能提升可能只有几个百分点。

MiroThinker提出的新路径

MiroThinker团队提出了一个不同的思路：与其不断增加模型内部的参数，不如增强模型与外部世界的交互能力。

他们把这个思路命名为 Interactive Scaling（交互式扩展）。

核心理念是：模型性能的提升不一定来自「记住更多知识」，也可以来自「更好地获取和使用外部知识」。

打个比方，传统的Scaling Law像是让一个人不断背书、不断往脑子里塞更多东西。Interactive Scaling则是教这个人如何查资料、如何验证信息、如何综合分析——它不需要记住所有东西，但需要知道怎么找到并使用这些东西。

Interactive Scaling的三个维度

MiroThinker的技术报告中，把模型能力的扩展分为三个维度：

第一维度：模型规模（Model Scaling）

这是传统做法，增加参数量来提升模型的基础能力。MiroThinker的基础模型有8B、14B、30B、72B和235B等多个版本。虽然它也有大模型，但重点不在于单纯堆参数。

第二维度：上下文长度（Context Scaling）

让模型能处理更长的输入，记住更多的对话历史。MiroThinker支持256K的上下文窗口，这意味着它可以在一次任务中记住大量的搜索结果和中间推理过程。

第三维度：交互深度（Interactive Scaling）

这是MiroThinker的核心创新。让模型与外部工具进行更频繁、更深入的交互。在一个复杂任务中，MiroThinker可能会进行几十次搜索、数百次工具调用，不断获取新信息来修正自己的判断。

源码七号站认为，第三个维度是真正的游戏规则改变者。它意味着一个30B参数的模型，通过更好的工具使用策略，可以在特定任务上超越1000B参数的模型。

从「一次性推理」到「迭代式研究」

传统的语言模型工作方式是这样的：接收输入 → 思考 → 输出答案。这是一个单向的过程，模型只有一次机会来给出答案。

MiroThinker的工作方式则是：接收输入 → 思考 → 搜索验证 → 发现问题 → 调整假设 → 再次搜索 → 再次验证 → …… → 输出答案。

这是一个闭环的、迭代的过程。模型可以根据外部反馈不断修正自己的推理路径，就像一个研究员在做调研时会不断调整研究方向一样。

技术上，这需要解决几个挑战：

如何训练模型进行多轮交互：普通的语言模型只训练了「给定输入生成输出」的能力，没有训练「根据工具反馈调整策略」的能力。
如何避免无效交互：如果模型乱搜一气，既浪费计算资源，又可能引入噪音。需要让模型学会「有策略地搜索」。
如何处理长轨迹：当交互次数增加时，模型需要记住之前所有的搜索结果和推理过程。这对上下文管理提出了很高的要求。

MiroThinker通过专门设计的训练方法和架构来解决这些问题，我们在后面会详细展开。

第三章：MiroThinker的训练哲学

了解了Interactive Scaling的理念后，我们来看看MiroThinker是如何把这个理念落地的。

核心思想：训练一个「会求证」的Agent

MiroThinker的训练目标不是让模型记住更多答案，而是让模型学会「不确定时主动查证」。

这听起来简单，但实现起来很复杂。因为大多数语言模型被训练成「给出一个最可能的答案」，而不是「承认不确定并寻求验证」。

MiroThinker的训练过程刻意改变了这种倾向：

弱化「一次性正确」的奖励

传统训练中，模型如果一次就给出正确答案会得到高分。但MiroThinker的训练中，团队故意降低了这种奖励的权重。

为什么？因为如果模型总是追求「一次性答对」，它就会倾向于编造一个看起来合理的答案，而不是承认自己需要去查证。这正是AI「幻觉」问题的根源。

强化「求证过程」的奖励

相反，MiroThinker更看重模型的「求证行为」。当模型面对不确定的问题时，如果它选择去搜索、去验证，而不是直接猜测，它会得到更高的奖励。

这训练出了一种行为模式：遇到不确定的事情 → 主动承认不确定 → 发起搜索 → 根据搜索结果更新判断。

惩罚「无根据的高置信度」

这是很关键的一点。如果模型对一个答案表示很高的置信度，但这个答案实际上没有外部证据支持，模型会受到惩罚。

这训练出了「无证据不开口」的本能——模型只有在有充分证据时才会表示确信，否则就去查证或者坦诚说明不确定性。

训练数据的构建

高质量的训练数据对Agent来说至关重要。MiroThinker团队发布了一个叫MiroVerse的数据集，包含14.7万条高质量的训练样本。

这些数据不是普通的问答对，而是完整的「研究轨迹」（Trajectory）。每条数据记录了：

一个复杂问题
模型如何把问题分解成子问题
模型发起了哪些搜索，得到了什么结果
模型如何根据搜索结果调整判断
最终的答案是什么，依据是什么

通过学习这些轨迹，模型学到的不只是「什么是正确答案」，而是「如何通过研究得到正确答案」。

强化学习的应用

在监督学习的基础上，MiroThinker还引入了强化学习（RL）来进一步优化模型的行为。

强化学习让模型通过试错来学习。模型进行一次完整的研究任务，根据最终结果的正确性获得奖励，然后调整自己的策略，在下次做得更好。

实验数据显示，经过强化学习训练的MiroThinker-v1.0-30B模型，与只做监督学习的版本相比，展现出了更长、更深的交互轨迹。监督学习的版本往往在几次工具调用后就停止，而强化学习版本会进行更多轮的探索和验证。

源码七号站在这里要强调一点：强化学习的效果很大程度上取决于奖励函数的设计。MiroThinker的成功，很大程度上来自于团队对「什么是好的研究行为」有清晰的定义，并把这个定义编码成了合适的奖励信号。

第四章：MiroThinker的技术架构深度解析

接下来，让我们深入技术细节，看看MiroThinker的架构设计。

整体架构

MiroThinker的系统可以分为几个层次：

基础模型层

MiroThinker基于Qwen模型家族构建。选择Qwen的原因是它在开源模型中具有优秀的基础能力，特别是在长上下文处理方面表现不错。

目前发布的版本包括：

MiroThinker-v1.5-30B
MiroThinker-v1.5-235B
以及早期的v1.0版本（8B、14B、32B、72B）

Agent框架层

在基础模型之上，MiroThinker构建了一套Agent框架，叫做MiroFlow。这个框架负责：

管理模型与工具之间的交互
追踪和记录研究轨迹
处理上下文管理和记忆
协调多步骤的研究流程

工具层

MiroThinker可以调用多种外部工具：

网络搜索（Web Search）
网页浏览（Web Browsing）
代码执行（Python Execution）
文件读取（File Reading）
音频转录（Audio Transcription）
视觉问答（VQA）

这些工具赋予了模型与外部世界交互的能力。

核心组件详解

工具调用机制

MiroThinker使用一种统一的XML-JSON混合格式来定义和调用工具。这种设计的好处是：

结构清晰，便于模型理解和生成
容易扩展，添加新工具很方便
便于追踪，可以清楚地记录每次工具调用

一个典型的工具调用可能长这样：

<tool_call>
<tool_name>web_search</tool_name>
<parameters>
{"query": "2026年全球AI大模型市场规模"}
</parameters>
</tool_call>

上下文管理

当交互次数增加时，上下文会迅速膨胀。MiroThinker使用了几种策略来管理这个问题：

滑动窗口：只保留最近N轮交互的完整内容
摘要压缩：对早期的交互进行摘要，保留关键信息但减少token数量
选择性保留：根据相关性判断哪些历史信息需要保留

v1.5版本引入了keep5策略（保留最近5轮的完整内容），实验表明这在效果和效率之间取得了较好的平衡。

轨迹追踪

MiroFlow框架提供了完整的轨迹追踪功能。每次研究任务都会生成一个详细的日志，记录：

模型的每次思考过程
每次工具调用的输入输出
每轮交互花费的时间
最终的结论和支撑证据

这个功能对于调试和改进系统非常有价值。

推理配置

根据官方文档，MiroThinker推荐使用以下推理参数：

参数	推荐值
temperature	1.0
top_p	0.95
repetition_penalty	1.05
max_context_length	262144
max_tokens	16384

有几个值得注意的点：

temperature=1.0：这是一个相对较高的温度值。通常我们会用较低的温度（如0.3-0.7）来获得更确定性的输出。但对于Agent任务来说，较高的温度有助于模型探索更多可能的路径，而不是过早收敛到一个解决方案。

max_context_length=262144：256K的上下文窗口支持很长的交互轨迹。在一些复杂任务中，模型可能会进行上百次工具调用，这需要足够大的上下文来保存所有信息。

repetition_penalty=1.05：轻微的重复惩罚有助于避免模型陷入循环，反复做同样的搜索。

第五章：性能测评——用数据说话

光说不练假把式，让我们看看MiroThinker在各种测试基准上的实际表现。

BrowseComp测试

BrowseComp是OpenAI开发的一个专门评估网页浏览Agent能力的基准测试。它包含1266个精心设计的问题，每个问题都需要模型在互联网上进行深度搜索才能找到答案。

这个测试的设计者有意提高了难度：

问题的答案不会出现在搜索结果的第一页
需要综合多个来源的信息
大多数问题普通人在10分钟内无法解决

测试结果对比：

模型	BrowseComp准确率
GPT-4o（无浏览）	0.6%
GPT-4o（有浏览）	1.9%
Deep Research	~50%
MiroThinker-v1.5-30B	与Deep Research可比

这个结果说明什么？

首先，普通的语言模型即使很强大（如GPT-4o），在这类任务上也几乎无能为力。其次，即使给模型加上浏览能力，提升也很有限——这说明「能搜索」和「会研究」是两回事。

MiroThinker用30B参数达到了与OpenAI Deep Research相当的水平，后者基于的基础模型参数量级要大得多。

BrowseComp-ZH测试

这是BrowseComp的中文版本，测试模型在中文互联网上进行研究的能力。

MiroThinker在这个测试上的表现尤其亮眼，超越了Kimi-K2-Thinking。要知道，Kimi-K2-Thinking是一个万亿参数级别的模型，MiroThinker只用了1/30的参数就实现了超越。

GAIA测试

GAIA是另一个权威的通用AI助手评估基准。它包含了多种类型的任务，测试模型的综合能力。

MiroThinker-v1.0在GAIA-Text-103子集上取得了81.9%的准确率，在开源模型中达到了SOTA（最先进）水平。

成本对比

性能只是一方面，成本同样重要。

根据官方数据，MiroThinker-v1.5-30B的单次调用成本约为0.07美元，而Kimi-K2-Thinking的成本约为1.4美元。也就是说，MiroThinker的推理成本只有竞品的1/20。

对于需要大规模使用的场景（比如搭建一个研究助手平台），这个成本差异是非常可观的。

效果实测

源码七号站决定亲自测试一下MiroThinker的实际效果。我们设计了几个不同类型的任务：

测试一：市场调研

问题：请帮我调研一下2026年全球AI大模型市场的最新竞争格局。

MiroThinker的表现：进行了30多次搜索，浏览了10多个网页，最终输出了一份结构完整的研究报告。特别值得注意的是，报告准确地涵盖了主要玩家，包括一些其他模型容易遗漏的公司（如Google的最新进展）。

测试二：人物调研

问题：搜索Manus核心成员的访谈记录，详细介绍每一个核心成员访谈时聊了什么。

MiroThinker的表现：不仅找到了公开的访谈内容，还很好地提取了每位成员谈话的核心观点。作为对照，我们也看过这些访谈的原始内容，MiroThinker的提取是准确且全面的。

测试三：投资分析

问题：A股会在春节前涨到多少？

MiroThinker的表现：这个问题其实是个陷阱——没有任何模型能准确预测股市。但MiroThinker的回应方式很聪明：它没有给出一个确定的点位预测，而是分析了历史数据和当前政策环境，给出了一个基于概率的合理波动区间。它明确表示这不是预测，实际结果可能因突发因素大幅偏离。

这种「知道自己不知道什么」的能力，恰恰体现了MiroThinker训练的成功。

第六章：手把手教你部署MiroThinker

终于到了实操环节！接下来，源码七号站将详细介绍如何在自己的环境中部署MiroThinker。

准备工作

硬件要求

首先要明确的是，MiroThinker对硬件有一定要求：

模型版本	建议GPU配置	显存需求（估算）
8B	单卡A100 40GB	~20GB
14B	单卡A100 80GB	~35GB
30B	2-4卡A100	~70GB
72B	4-8卡A100	~150GB
235B	多节点集群	~500GB

如果你没有这么多GPU资源，也不用灰心。30B版本用4张消费级显卡（如RTX 4090）也能跑起来，只是速度会慢一些。另外，后面我们还会介绍量化部署方案，可以进一步降低硬件需求。

软件环境

推荐使用以下软件环境：

Python 3.10+
CUDA 12.0+
PyTorch 2.1+

方案一：使用SGLang部署

SGLang是MiroThinker官方推荐的推理框架，特别适合长上下文和复杂Agent任务。

第一步：安装SGLang

pip install sglang[all]

第二步：下载模型

你可以直接从HuggingFace下载：

# 确保安装了huggingface_hub
pip install huggingface_hub

# 登录（如果模型需要授权）
huggingface-cli login

# 模型会在启动时自动下载，或者手动下载
# huggingface-cli download miromind-ai/MiroThinker-v1.5-30B

第三步：启动推理服务

# 设置参数
NUM_GPUS=4
PORT=61002
MODEL_PATH=miromind-ai/MiroThinker-v1.5-30B

# 启动服务
python3 -m sglang.launch_server \
--model-path $MODEL_PATH \
--tp $NUM_GPUS \
--dp 1 \
--host 0.0.0.0 \
--port $PORT \
--trust-remote-code

这里的--tp表示张量并行度，根据你的GPU数量设置。

第四步：测试API

服务启动后，你可以用curl测试：

curl http://localhost:61002/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "MiroThinker-v1.5-30B",
"messages": [{"role": "user", "content": "你好，请介绍一下自己"}],
"temperature": 1.0,
"max_tokens": 1024
}'

方案二：使用Ollama部署（消费级硬件友好）

如果你的硬件资源有限，可以使用Ollama来部署量化版本。

第一步：安装Ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# macOS
brew install ollama

第二步：运行模型

MiroThinker团队提供了GGUF格式的量化模型。你需要：

从HuggingFace下载GGUF文件
创建一个Modelfile指定模型路径
使用ollama创建并运行模型

具体步骤请参考官方的部署文档，地址在项目GitHub页面可以找到。

方案三：使用官方在线Demo

如果你只是想体验一下MiroThinker的能力，不想折腾部署，可以直接使用官方的在线Demo。

访问地址：dr.miromind.ai

这个在线版本提供了完整的研究Agent功能，可以直接输入问题，观看模型如何进行研究。

第七章：使用MiroFlow框架进行开发

部署完模型只是第一步。如果你想基于MiroThinker构建自己的应用，需要使用MiroFlow框架。

快速开始

第一步：克隆项目

git clone https://github.com/MiroMindAI/MiroFlow
cd MiroFlow

第二步：安装依赖

MiroFlow使用uv作为包管理工具：

# 安装uv（如果还没有）
pip install uv

# 同步依赖
uv sync

第三步：配置环境变量

cp .env.template .env
# 编辑.env文件，添加你的API密钥

MiroFlow支持多种API后端。最简单的方式是使用OpenRouter，它提供了对多种模型的统一访问接口。

第四步：运行你的第一个任务

uv run main.py trace \
--config_file_name=agent_quickstart_reading \
--task="What is the capital of France?"

配置Agent

MiroFlow使用Hydra进行配置管理。配置文件在configs目录下：

configs/
├── agent/
│ ├── mirothinker_v1.5_keep5.yaml
│ ├── mirothinker_v1.5_keep5_max200.yaml
│ └── ...
├── llm/
│ ├── qwen-3.yaml
│ └── ...
└── benchmark/
├── debug.yaml
├── browsecomp.yaml
└── ...

主要的配置项包括：

Agent配置：定义Agent的行为策略，如上下文管理方式、最大工具调用次数等

LLM配置：定义底层模型的连接参数

Benchmark配置：定义评测任务的数据集和评估方式

自定义工具

MiroFlow允许你添加自定义工具。工具定义使用Python类：

from miroflow.tools import BaseTool

class MyCustomTool(BaseTool):
name = "my_tool"
description = "This tool does something useful"

def execute(self, params: dict) -> str:
# 实现你的工具逻辑
result = do_something(params)
return result

然后在配置中注册这个工具，Agent就可以使用它了。

日志和调试

MiroFlow提供了丰富的日志功能：

# 运行时添加--trace参数可以看到详细的执行过程
uv run main.py trace --verbose \
--task="Your research question"

执行完成后，会在logs目录下生成详细的轨迹记录，包括每一步的思考、工具调用和结果。

运行基准测试

如果你修改了模型或框架，可能想在标准基准上测试效果：

# 在BrowseComp上测试
uv run python main.py \
llm=qwen-3 \
agent=mirothinker_v1.5_keep5_max200 \
benchmark=browsecomp \
llm.base_url=http://localhost:61002/v1

# 检查进度
cd apps/miroflow-agent
python benchmarks/check_progress/check_progress_browsecomp.py /path/to/logs

第八章：MiroThinker的最佳实践

在使用MiroThinker的过程中，源码七号站总结了一些最佳实践，可以帮助你获得更好的效果。

提示词设计

虽然MiroThinker经过了专门的Agent训练，但好的提示词仍然能显著提升效果。

明确任务目标

不好的写法：帮我查一下AI的情况

好的写法：请调研2025-2026年全球企业级AI应用市场的发展趋势，重点关注：(1)主要玩家及其市场份额；(2)关键技术突破；(3)主要应用场景；(4)面临的挑战

指定输出格式

如果你需要特定格式的输出，在提示词中说明：

请以研究报告的形式输出，包含以下章节：摘要、市场概况、主要玩家分析、趋势预测、结论

设定质量标准

请确保每个结论都有可靠的数据来源支撑，对于没有确切数据的内容请标注为推测

处理复杂任务

对于特别复杂的任务，可以分步进行：

第一轮：让模型做初步调研，了解整体情况

第二轮：基于第一轮的发现，针对具体方面深入研究

第三轮：综合前两轮的结果，形成最终报告

这种方式比一次性抛出一个超大问题效果更好。

结果验证

虽然MiroThinker经过了「求证」训练，但在关键场景下仍建议进行人工验证：

检查引用的来源是否真实存在
对关键数据进行抽查验证
注意时效性——确保信息是当前有效的

成本优化

如果需要控制成本，可以：

使用较小的模型：30B版本在大多数任务上已经够用
限制最大工具调用次数：在配置中设置max_tool_calls
使用量化版本：牺牲一些精度换取更低的计算成本

第九章：MiroThinker与其他方案的对比

市面上有很多搜索Agent和研究助手产品，MiroThinker的定位是什么？它与其他方案相比有什么优劣势？

与商业产品对比

对比OpenAI Deep Research

维度	OpenAI Deep Research	MiroThinker
是否开源	否	是
可定制性	低	高
成本	较高	较低
性能	约50%（BrowseComp）	可比或超越
中文能力	一般	更好

MiroThinker的主要优势是开源和可定制。如果你需要针对特定领域优化、需要本地部署、或者需要与自己的系统集成，MiroThinker是更好的选择。

对比Perplexity

Perplexity是一个很流行的AI搜索产品，但它的定位偏向于快速问答，而不是深度研究。对于需要长时间调研的复杂问题，MiroThinker更有优势。

与开源方案对比

对比AutoGPT类Agent

AutoGPT等早期Agent框架主要依赖提示词工程来实现Agent行为。它们没有在模型层面进行专门训练，所以容易出现：

行为不稳定
容易陷入循环
工具调用失败率高

MiroThinker通过模型层面的训练解决了这些问题。

对比ReAct等框架

ReAct（Reasoning and Acting）是一种经典的Agent范式。MiroThinker可以看作是ReAct理念的一个高级实现，它不仅在推理时使用ReAct模式，还在训练时就强化了这种能力。

选型建议

选择MiroThinker的场景：

需要开源、可审计的方案
需要针对特定领域定制
需要本地化部署
对成本敏感
需要处理中文内容

可能需要商业产品的场景：

没有技术团队支持部署
需要即开即用的服务
对SLA有严格要求

第十章：未来展望与思考

写到这里，让我们跳出技术细节，思考一些更宏观的问题。

Interactive Scaling的意义

MiroThinker代表的Interactive Scaling思路，可能会深刻影响AI发展的方向。

过去几年，大模型的发展主要沿着一条路线：增加参数、增加数据、增加算力。这条路线虽然有效，但正在遇到瓶颈——成本越来越高，而边际收益越来越小。

Interactive Scaling提供了另一种思路：与其让模型「记住」更多东西，不如让模型「学会」更好地获取和使用外部信息。

这个思路如果被验证有效（MiroThinker的成绩已经是一个有力的证据），可能会改变整个行业的研发重点：

更多资源投入到Agent能力的研发
更注重工具生态的建设
更关注模型与环境的交互质量

对AGI的启示

人工通用智能（AGI）一直是AI研究的终极目标。MiroThinker的创始团队提出了一个很有意思的观点：真正的AGI可能不是「无所不知的做题家」，而是「善于发现的科学家」。

想想人类的科学家是怎么工作的？他们不会试图记住所有知识，而是：

知道什么是已知的、什么是未知的
懂得如何提出问题
善于设计实验来验证假设
能够根据证据修正自己的观点

MiroThinker朝着这个方向迈出了一步。它展示了，通过正确的训练方式，可以让模型具备某种程度的「发现式智能」。

当然，现在的MiroThinker离AGI还很远。但它提供的思路值得整个领域深思。

开源的力量

最后，我想说说开源的意义。

MiroThinker选择完全开源，包括模型权重、训练数据、代码框架，这是一个很有魄力的决定。

开源意味着：

任何人都可以复现结果
任何人都可以基于它进行改进
技术进步可以被整个社区共享

在AI领域，过多的技术被锁在闭源产品背后。MiroThinker的开源，为研究者和开发者提供了一个强大的工具，也为整个行业的健康发展做出了贡献。

结语

好了，这篇文章到这里就要告一段落了。

我们从搜索Agent的基本概念出发，深入分析了MiroThinker的核心创新——Interactive Scaling，详细介绍了它的技术架构和训练方法，展示了它的性能表现，还手把手地讲解了如何部署和使用。

源码七号站希望这篇文章能帮助你真正理解MiroThinker这个项目。它不只是一个「又一个开源模型」，而是代表了AI发展的一个重要方向。

如果你觉得这篇文章有价值，欢迎分享给更多人。如果你在使用过程中有任何问题或心得，也欢迎与我们交流。

最后，附上相关链接：

项目地址：https://github.com/MiroMindAI/MiroThinker

在线体验：https://dr.miromind.ai/

模型下载：https://huggingface.co/miromind-ai/MiroThinker-v1.5-235B

本文由 源码七号站 小编莫潇羽原创整理，转载请注明来源。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【小白无痛】CLIP 多模态模型基石：从原理图解到 PyTorch 代码逐行复现

2048 AI社区

LangChain聊天模型---工具调用

LangChain 支持 3 种@tool这 3 种方式的核心目标都是生成 LangChain 标准的工具对象方式 1：简单直接，依赖 docstring；方式 2：灵活强大，依赖 Pydantic BaseModel；方式 3：简洁紧凑，依赖 Annotated 类型提示。

2048 AI社区

【大数据 & AI】Flink Agents 源码解读 --- (6) --- ActionTask

PythonActionTask 对应一个 Python 函数（更准确地说是一个 PythonFunction 对象），这个函数是在创建 Action 时定义的，存储在 action.getExec() 中。但PythonActionTask 不仅仅是简单的函数封装，而是使其能够在 Flink Agents 框架中正确执行，并支持框架所需的高级特性。复杂逻辑：PythonActionTask 不仅

2048 AI社区

所有评论(0)

查看更多评论

莫潇羽

@lintser

已为社区贡献4条内容