今日热点 · 2026.04.23 | Google Cloud Next '26 开幕,TPU 8 双芯片、Gemini Deep Research Agent 正式发布;MinerU2.5-Pro 论文同日挂上 arXiv,用数据工程打败 200 倍参数的大模型。

今天有两件事值得认真说:一件发生在拉斯维加斯,一件发生在 arXiv。

放在一起看,它们讲的是同一个故事——Agent 时代的基础设施,正在被重新定义。


一、Google 今天发了什么

Google Cloud Next '26 在拉斯维加斯开幕,核心发布集中在三件事:

1.1 TPU 8:训练和推理,第一次分开造

Google 第八代 TPU 做了一个在芯片设计史上少见的决定——把训练和推理拆成两颗完全不同的芯片:

TPU 8t(训练专用)

  • 代号 Sunfish,与 Broadcom 联合设计
  • 单 Superpod 扩展至 9,600 颗 TPU
  • 2 petabytes 共享高带宽内存
  • 算力 121 exaflops/pod,比上代 Ironwood 提升 3 倍
  • 性能/瓦特提升 2 倍

TPU 8i(推理专用)

  • 单 Pod 1,152 颗 TPU 互联
  • 每颗 288 GB HBM + 384 MB 片上 SRAM
  • 专为 低延迟 Agent 推理优化
  • 性能/美元比上代提升 80%
  • SRAM 扩大 3 倍,减少内存墙问题

为什么拆开? 训练追求吞吐量,推理追求延迟。同一颗芯片两边都要兼顾,结果两边都不极致。Google 这次直接按场景造芯片——这是"Agentic Era"对基础设施的反压:Agent 要实时响应,推理延迟容不得妥协。

1.2 Gemini Deep Research Agent:从搜索引擎到数字分析师

这次 Google 把 Deep Research 从消费产品拉到了企业 API,同时发布了两个版本:

Deep Research

Deep Research Max

定位

通用研究任务

长程复杂分析

数据源

公开网络

公开网络 + 私有数据库(MCP)

成本

标准

~GPT-5 Pro 的 10%

并行准确率

72.2%

89.5%(pass@8)

真正重要的一点:MCP 协议支持私有数据接入。

以前 Deep Research 只能搜公开网页。现在通过 MCP,它可以直接查:内部文档库、企业 ERP、Bloomberg 终端、FactSet——数据不出原始环境,合规。

某投行试点数据:接入彭博终端后,AI 自主完成上市公司财报交叉验证,错误率比人工团队降低 42%

1.3 一个被低调提及的数字

Google CEO 桑达尔·皮查伊在主题演讲里提到:Google 75% 的新增代码,现在已经由 AI 生成。

这不是 Demo,是内部实际数字。程序员没有消失,但"写代码"这件事正在变成"审代码"。


二、MinerU2.5-Pro:今天挂上 arXiv 的反直觉结论

就在今天,MinerU 团队在 arXiv 发布了 MinerU2.5-Pro 的技术论文(arXiv:2604.04771)。

标题很直接:Pushing the Limits of Data-Centric Document Parsing at Scale

核心结论只有一句话:模型架构一行没改,1.2B 参数,靠纯数据工程,打败了参数量 200 倍于它的 Qwen3-VL。

2.1 它做了什么

训练数据从不足 1000 万页扩展到 6550 万页,同时引入了三套数据工程方法:

2.2 为什么这个结论重要

大模型圈有一个根深蒂固的信仰:参数越大越强。

MinerU2.5-Pro 的论文用一个数字正面打了这个信仰的脸:1.2B 参数 > 235B 参数,在文档解析这个专项任务上。

论文里有一个细节值得特别注意:研究者发现,不同架构、不同参数规模的模型,在同一批难样本上会犯完全相同的错误

这意味着什么? 瓶颈不在架构,不在参数,在训练数据里没有这类样本。就像不同科的医生对同一种罕见病都束手无策——不是能力问题,是见过的病例太少。

文档解析这个领域,堆参数不是答案,数据质量才是。

2.3 和 Google Deep Research 的连接

Google Deep Research Max 今天最大的升级是接入私有数据库。但它能不能真正读懂企业私有文档,取决于一个前置问题:文档有没有被正确解析成结构化数据。

如果企业的 PDF 财报进入知识库前没有被正确解析——表格乱码、公式截图、多栏错位——那 Deep Research 拿到的就是垃圾,研究结论再智能也没用。

这就是 MinerU 和今天 Google 发布的东西之间的关系:

文档解析是 Agent 时代的知识输入层。这一层烂掉,上面所有 Agent 都是白搭。


三、MinerU MCP Server:直接接进 Agent 工作流

说到 MCP,MinerU 也有自己的 MCP Server,可以直接接入 Claude Code、Cursor 等 Agent 工具:

# 安装 MinerU MCP Server
pip install mineru-mcp
# 或用 uvx(推荐,免全局安装)
uvx mineru-mcp

claude_desktop_config.json 里注册:

{
  "mcpServers": {
    "mineru": {
      "command": "uvx",
      "args": ["mineru-mcp"],
      "env": {
        "MINERU_TOKEN": "your_api_token"
      }
    }
  }
}

接入后,你可以在 Claude Code 里直接说:

"帮我解析这份财报 PDF,提取所有表格,整理成结构化 JSON,
然后分析 2024 年各季度营收变化趋势"

Claude Code 会自动调用 MinerU MCP 解析文档,拿到结构化结果,再执行分析。整个链路不需要你手动写一行解析代码。


四、今天发生的事,合在一起说明什么

今日事件

核心变化

对开发者的意义

Google TPU 8t/8i 双芯片

训推分离,推理延迟大幅降低

Agent 实时响应成本下降,规模化部署变可行

Gemini Deep Research Max + MCP

公开数据 + 私有数据库打通

企业知识库终于能喂给 Agent,RAG 进入实用阶段

MinerU2.5-Pro 论文发布

1.2B 参数靠数据工程超越 235B 模型

文档解析的瓶颈不是模型大小,是训练数据质量

MinerU MCP Server

文档解析直接接入 Claude/Cursor 工作流

零代码接入,文档处理变成 Agent 的原生工具

Agent 时代的基础设施正在完成最后几块拼图:

  • 算力层:Google TPU 8i 解决推理延迟
  • 模型层:Kimi K2.6、Claude Opus 4.7、Gemini Deep Research 解决任务复杂度
  • 数据层:MinerU 解决文档结构化输入质量

三层都就位了,剩下的问题只有一个:你的私有数据准备好了吗?


五、今天能做的一件事

如果你有文档需要接入 Agent 工作流,3 分钟可以试跑一下:

# 安装 MinerU
pip install mineru

# 解析一份 PDF(精度优先模式)
mineru -p your_report.pdf -o ./output --mode precision

# 输出:
# output/your_report.md          ← 结构化 Markdown,可直接喂 LLM
# output/images/                 ← 提取的图表
# output/your_report_middle.json ← 含坐标,供二次开发

然后把 .md 文件丢给 Claude Code 或者接入 Deep Research Max,看看 Agent 能从你的文档里挖出什么。


Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐