Google 今天发布了什么？以及为什么 MinerU 突然成了 Agent 时代的关键底座

摘要：Google Cloud Next '26发布TPU 8双芯片与Gemini Deep Research Agent，MinerU2.5-Pro论文提出数据工程可超越大模型性能。 Google推出专用于训练（TPU 8t）和推理（TPU 8i）的独立芯片，优化Agent实时响应；Gemini Deep Research Agent支持私有数据接入，提升企业分析效率。同日，MinerU2.5-

m0_61134850

43人浏览 · 2026-04-23 10:21:15

m0_61134850 · 2026-04-23 10:21:15 发布

今日热点 · 2026.04.23 | Google Cloud Next '26 开幕，TPU 8 双芯片、Gemini Deep Research Agent 正式发布；MinerU2.5-Pro 论文同日挂上 arXiv，用数据工程打败 200 倍参数的大模型。

今天有两件事值得认真说：一件发生在拉斯维加斯，一件发生在 arXiv。

放在一起看，它们讲的是同一个故事——Agent 时代的基础设施，正在被重新定义。

一、Google 今天发了什么

Google Cloud Next '26 在拉斯维加斯开幕，核心发布集中在三件事：

1.1 TPU 8：训练和推理，第一次分开造

Google 第八代 TPU 做了一个在芯片设计史上少见的决定——把训练和推理拆成两颗完全不同的芯片：

TPU 8t（训练专用）

代号 Sunfish，与 Broadcom 联合设计
单 Superpod 扩展至 9,600 颗 TPU
2 petabytes 共享高带宽内存
算力 121 exaflops/pod，比上代 Ironwood 提升 3 倍
性能/瓦特提升 2 倍

TPU 8i（推理专用）

单 Pod 1,152 颗 TPU 互联
每颗 288 GB HBM + 384 MB 片上 SRAM
专为 低延迟 Agent 推理优化
性能/美元比上代提升 80%
SRAM 扩大 3 倍，减少内存墙问题

为什么拆开？ 训练追求吞吐量，推理追求延迟。同一颗芯片两边都要兼顾，结果两边都不极致。Google 这次直接按场景造芯片——这是"Agentic Era"对基础设施的反压：Agent 要实时响应，推理延迟容不得妥协。

1.2 Gemini Deep Research Agent：从搜索引擎到数字分析师

这次 Google 把 Deep Research 从消费产品拉到了企业 API，同时发布了两个版本：

	Deep Research	Deep Research Max
定位	通用研究任务	长程复杂分析
数据源	公开网络	公开网络 + 私有数据库（MCP）
成本	标准	~GPT-5 Pro 的 10%
并行准确率	72.2%	89.5%（pass@8）

真正重要的一点：MCP 协议支持私有数据接入。

以前 Deep Research 只能搜公开网页。现在通过 MCP，它可以直接查：内部文档库、企业 ERP、Bloomberg 终端、FactSet——数据不出原始环境，合规。

某投行试点数据：接入彭博终端后，AI 自主完成上市公司财报交叉验证，错误率比人工团队降低 42%。

1.3 一个被低调提及的数字

Google CEO 桑达尔·皮查伊在主题演讲里提到：Google 75% 的新增代码，现在已经由 AI 生成。

这不是 Demo，是内部实际数字。程序员没有消失，但"写代码"这件事正在变成"审代码"。

二、MinerU2.5-Pro：今天挂上 arXiv 的反直觉结论

就在今天，MinerU 团队在 arXiv 发布了 MinerU2.5-Pro 的技术论文（arXiv:2604.04771）。

标题很直接：Pushing the Limits of Data-Centric Document Parsing at Scale

核心结论只有一句话：模型架构一行没改，1.2B 参数，靠纯数据工程，打败了参数量 200 倍于它的 Qwen3-VL。

2.1 它做了什么

训练数据从不足 1000 万页扩展到 6550 万页，同时引入了三套数据工程方法：

2.2 为什么这个结论重要

大模型圈有一个根深蒂固的信仰：参数越大越强。

MinerU2.5-Pro 的论文用一个数字正面打了这个信仰的脸：1.2B 参数 > 235B 参数，在文档解析这个专项任务上。

论文里有一个细节值得特别注意：研究者发现，不同架构、不同参数规模的模型，在同一批难样本上会犯完全相同的错误。

这意味着什么？ 瓶颈不在架构，不在参数，在训练数据里没有这类样本。就像不同科的医生对同一种罕见病都束手无策——不是能力问题，是见过的病例太少。

文档解析这个领域，堆参数不是答案，数据质量才是。

2.3 和 Google Deep Research 的连接

Google Deep Research Max 今天最大的升级是接入私有数据库。但它能不能真正读懂企业私有文档，取决于一个前置问题：文档有没有被正确解析成结构化数据。

如果企业的 PDF 财报进入知识库前没有被正确解析——表格乱码、公式截图、多栏错位——那 Deep Research 拿到的就是垃圾，研究结论再智能也没用。

这就是 MinerU 和今天 Google 发布的东西之间的关系：

文档解析是 Agent 时代的知识输入层。这一层烂掉，上面所有 Agent 都是白搭。

三、MinerU MCP Server：直接接进 Agent 工作流

说到 MCP，MinerU 也有自己的 MCP Server，可以直接接入 Claude Code、Cursor 等 Agent 工具：

# 安装 MinerU MCP Server
pip install mineru-mcp
# 或用 uvx（推荐，免全局安装）
uvx mineru-mcp

在 claude_desktop_config.json 里注册：

{
  "mcpServers": {
    "mineru": {
      "command": "uvx",
      "args": ["mineru-mcp"],
      "env": {
        "MINERU_TOKEN": "your_api_token"
      }
    }
  }
}

接入后，你可以在 Claude Code 里直接说：

"帮我解析这份财报 PDF，提取所有表格，整理成结构化 JSON，
然后分析 2024 年各季度营收变化趋势"

Claude Code 会自动调用 MinerU MCP 解析文档，拿到结构化结果，再执行分析。整个链路不需要你手动写一行解析代码。

四、今天发生的事，合在一起说明什么

今日事件	核心变化	对开发者的意义
Google TPU 8t/8i 双芯片	训推分离，推理延迟大幅降低	Agent 实时响应成本下降，规模化部署变可行
Gemini Deep Research Max + MCP	公开数据 + 私有数据库打通	企业知识库终于能喂给 Agent，RAG 进入实用阶段
MinerU2.5-Pro 论文发布	1.2B 参数靠数据工程超越 235B 模型	文档解析的瓶颈不是模型大小，是训练数据质量
MinerU MCP Server	文档解析直接接入 Claude/Cursor 工作流	零代码接入，文档处理变成 Agent 的原生工具

Agent 时代的基础设施正在完成最后几块拼图：

算力层：Google TPU 8i 解决推理延迟
模型层：Kimi K2.6、Claude Opus 4.7、Gemini Deep Research 解决任务复杂度
数据层：MinerU 解决文档结构化输入质量

三层都就位了，剩下的问题只有一个：你的私有数据准备好了吗？

五、今天能做的一件事

如果你有文档需要接入 Agent 工作流，3 分钟可以试跑一下：

# 安装 MinerU
pip install mineru

# 解析一份 PDF（精度优先模式）
mineru -p your_report.pdf -o ./output --mode precision

# 输出：
# output/your_report.md          ← 结构化 Markdown，可直接喂 LLM
# output/images/                 ← 提取的图表
# output/your_report_middle.json ← 含坐标，供二次开发

然后把 .md 文件丢给 Claude Code 或者接入 Deep Research Max，看看 Agent 能从你的文档里挖出什么。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Vector-Graph-RAG-用一套向量库搞定多跳问答无需图数据库

方向：AI / RAG工程 / 向量数据库做过 RAG 的工程师，大概都被"多跳问答"折磨过。问一个简单问题——“二甲双胍适合哪类糖尿病患者？”——Naive RAG 能直接命中，召回率不错。但换成需要两步推理的问题——“治疗2型糖尿病的一线用药有哪些副作用？”——你先要找到"二甲双胍是2型糖尿病的一线用药"，再从另一段文本找到"二甲双胍的副作用包括……"，两步之间需要推理桥梁，纯向量相似度检索完

2048 AI社区

ai思考ai与理想ai的过程让人感到惊叹

本文探讨了人工智能作为思考伙伴的理想与现实差距。1982年van Emden提出"计算机辅助思考"的愿景，强调通过逻辑语言、明确假设和有建设性的反馈摩擦来促进深度思考。然而，当前主流LLM系统恰恰相反：依赖模糊自然语言、隐藏假设、流畅但可能肤浅的回应，更像是"思想消音器"而非"思想磨刀石"。作者指出这种设计源于市场需求——人们更想要自我感