Google 今天发布了什么?以及为什么 MinerU 突然成了 Agent 时代的关键底座
摘要:Google Cloud Next '26发布TPU 8双芯片与Gemini Deep Research Agent,MinerU2.5-Pro论文提出数据工程可超越大模型性能。 Google推出专用于训练(TPU 8t)和推理(TPU 8i)的独立芯片,优化Agent实时响应;Gemini Deep Research Agent支持私有数据接入,提升企业分析效率。同日,MinerU2.5-
今日热点 · 2026.04.23 | Google Cloud Next '26 开幕,TPU 8 双芯片、Gemini Deep Research Agent 正式发布;MinerU2.5-Pro 论文同日挂上 arXiv,用数据工程打败 200 倍参数的大模型。
今天有两件事值得认真说:一件发生在拉斯维加斯,一件发生在 arXiv。
放在一起看,它们讲的是同一个故事——Agent 时代的基础设施,正在被重新定义。
一、Google 今天发了什么
Google Cloud Next '26 在拉斯维加斯开幕,核心发布集中在三件事:
1.1 TPU 8:训练和推理,第一次分开造
Google 第八代 TPU 做了一个在芯片设计史上少见的决定——把训练和推理拆成两颗完全不同的芯片:
TPU 8t(训练专用)
- 代号 Sunfish,与 Broadcom 联合设计
- 单 Superpod 扩展至 9,600 颗 TPU
- 2 petabytes 共享高带宽内存
- 算力 121 exaflops/pod,比上代 Ironwood 提升 3 倍
- 性能/瓦特提升 2 倍
TPU 8i(推理专用)
- 单 Pod 1,152 颗 TPU 互联
- 每颗 288 GB HBM + 384 MB 片上 SRAM
- 专为 低延迟 Agent 推理优化
- 性能/美元比上代提升 80%
- SRAM 扩大 3 倍,减少内存墙问题
为什么拆开? 训练追求吞吐量,推理追求延迟。同一颗芯片两边都要兼顾,结果两边都不极致。Google 这次直接按场景造芯片——这是"Agentic Era"对基础设施的反压:Agent 要实时响应,推理延迟容不得妥协。
1.2 Gemini Deep Research Agent:从搜索引擎到数字分析师
这次 Google 把 Deep Research 从消费产品拉到了企业 API,同时发布了两个版本:
|
Deep Research |
Deep Research Max |
|
|
定位 |
通用研究任务 |
长程复杂分析 |
|
数据源 |
公开网络 |
公开网络 + 私有数据库(MCP) |
|
成本 |
标准 |
~GPT-5 Pro 的 10% |
|
并行准确率 |
72.2% |
89.5%(pass@8) |
真正重要的一点:MCP 协议支持私有数据接入。
以前 Deep Research 只能搜公开网页。现在通过 MCP,它可以直接查:内部文档库、企业 ERP、Bloomberg 终端、FactSet——数据不出原始环境,合规。
某投行试点数据:接入彭博终端后,AI 自主完成上市公司财报交叉验证,错误率比人工团队降低 42%。
1.3 一个被低调提及的数字
Google CEO 桑达尔·皮查伊在主题演讲里提到:Google 75% 的新增代码,现在已经由 AI 生成。
这不是 Demo,是内部实际数字。程序员没有消失,但"写代码"这件事正在变成"审代码"。
二、MinerU2.5-Pro:今天挂上 arXiv 的反直觉结论
就在今天,MinerU 团队在 arXiv 发布了 MinerU2.5-Pro 的技术论文(arXiv:2604.04771)。
标题很直接:Pushing the Limits of Data-Centric Document Parsing at Scale
核心结论只有一句话:模型架构一行没改,1.2B 参数,靠纯数据工程,打败了参数量 200 倍于它的 Qwen3-VL。
2.1 它做了什么
训练数据从不足 1000 万页扩展到 6550 万页,同时引入了三套数据工程方法:
2.2 为什么这个结论重要
大模型圈有一个根深蒂固的信仰:参数越大越强。
MinerU2.5-Pro 的论文用一个数字正面打了这个信仰的脸:1.2B 参数 > 235B 参数,在文档解析这个专项任务上。
论文里有一个细节值得特别注意:研究者发现,不同架构、不同参数规模的模型,在同一批难样本上会犯完全相同的错误。
这意味着什么? 瓶颈不在架构,不在参数,在训练数据里没有这类样本。就像不同科的医生对同一种罕见病都束手无策——不是能力问题,是见过的病例太少。
文档解析这个领域,堆参数不是答案,数据质量才是。
2.3 和 Google Deep Research 的连接
Google Deep Research Max 今天最大的升级是接入私有数据库。但它能不能真正读懂企业私有文档,取决于一个前置问题:文档有没有被正确解析成结构化数据。
如果企业的 PDF 财报进入知识库前没有被正确解析——表格乱码、公式截图、多栏错位——那 Deep Research 拿到的就是垃圾,研究结论再智能也没用。
这就是 MinerU 和今天 Google 发布的东西之间的关系:
文档解析是 Agent 时代的知识输入层。这一层烂掉,上面所有 Agent 都是白搭。
三、MinerU MCP Server:直接接进 Agent 工作流
说到 MCP,MinerU 也有自己的 MCP Server,可以直接接入 Claude Code、Cursor 等 Agent 工具:
# 安装 MinerU MCP Server
pip install mineru-mcp
# 或用 uvx(推荐,免全局安装)
uvx mineru-mcp
在 claude_desktop_config.json 里注册:
{
"mcpServers": {
"mineru": {
"command": "uvx",
"args": ["mineru-mcp"],
"env": {
"MINERU_TOKEN": "your_api_token"
}
}
}
}
接入后,你可以在 Claude Code 里直接说:
"帮我解析这份财报 PDF,提取所有表格,整理成结构化 JSON,
然后分析 2024 年各季度营收变化趋势"
Claude Code 会自动调用 MinerU MCP 解析文档,拿到结构化结果,再执行分析。整个链路不需要你手动写一行解析代码。
四、今天发生的事,合在一起说明什么
|
今日事件 |
核心变化 |
对开发者的意义 |
|
Google TPU 8t/8i 双芯片 |
训推分离,推理延迟大幅降低 |
Agent 实时响应成本下降,规模化部署变可行 |
|
Gemini Deep Research Max + MCP |
公开数据 + 私有数据库打通 |
企业知识库终于能喂给 Agent,RAG 进入实用阶段 |
|
MinerU2.5-Pro 论文发布 |
1.2B 参数靠数据工程超越 235B 模型 |
文档解析的瓶颈不是模型大小,是训练数据质量 |
|
MinerU MCP Server |
文档解析直接接入 Claude/Cursor 工作流 |
零代码接入,文档处理变成 Agent 的原生工具 |
Agent 时代的基础设施正在完成最后几块拼图:
- 算力层:Google TPU 8i 解决推理延迟
- 模型层:Kimi K2.6、Claude Opus 4.7、Gemini Deep Research 解决任务复杂度
- 数据层:MinerU 解决文档结构化输入质量
三层都就位了,剩下的问题只有一个:你的私有数据准备好了吗?
五、今天能做的一件事
如果你有文档需要接入 Agent 工作流,3 分钟可以试跑一下:
# 安装 MinerU
pip install mineru
# 解析一份 PDF(精度优先模式)
mineru -p your_report.pdf -o ./output --mode precision
# 输出:
# output/your_report.md ← 结构化 Markdown,可直接喂 LLM
# output/images/ ← 提取的图表
# output/your_report_middle.json ← 含坐标,供二次开发
然后把 .md 文件丢给 Claude Code 或者接入 Deep Research Max,看看 Agent 能从你的文档里挖出什么。
更多推荐

所有评论(0)