Claude Code、Cursor、Kimi Code、Codex、Cline——现在大家写代码越来越依赖 Code Agent。但大模型有一个短板:读不了 PDF。

你丢给它一个 PDF 文件路径,它只会告诉你"这是个二进制文件,我读不了"。论文、技术文档、产品手册、扫描合同——å
¨éƒ½æ‰“不开。

解决方案只需要一行命令:

npx skills add tanis90/pdf-converter-mineru

è£
完之后,你的 Code Agent 就能直接读取、解析、总结任何 PDF 文件,åŒ
括扫描件。

这行命令做了什么

npx skills add 是 OpenClaw çš„ Skill 安è£
命令。OpenClaw 是 Code Agent 的技能市场——类似 VS Code 的扩展商店,但面向的是 AI 编程助手。

这行命令会拉取一个叫 pdf-converter-mineru çš„ Skill,è£
到你本地的 skills 目录下。è£
好之后,你的 Code Agent 就获得了一个新能力:调用 MinerU Open API 把 PDF 转成 Markdown,然后自己é˜
读和理解å†
容。

整个过程对你来说是透明的。你不需要手动调用任何命令,也不需要é
ç½® MCP server——直接对你的 Code Agent 说"帮我读这个 PDF"就行。

哪些 Code Agent 支持

这个 Skill 基于 OpenClaw 的开放标准,一次安è£
,跨工å
·é€šç”¨ï¼š

| Code Agent | 支持æƒ
况 |
|:—|:—|
| Claude Code | 原生支持 |
| Cursor | 支持 |
| Cline | 支持 |
| Augment | 支持 |
| Kimi Code | 支持 |
| CodeBuddy | 支持 |
| Warp | 支持 |

不管你日常用哪个 Code Agent,è£
一次就行。

它能做什么

è£
完 Skill 之后,你可以直接这样对你的 Code Agent 说:

读论文:

> 帮我读一下 ./papers/attention-is-all-you-need.pdf,总结核心贡献

提取表格:

> 把 quarterly-report.pdf 里的财务数据表格提取出来

扫描件识别:

> 这份扫描的合同 contract-scan.pdf,帮我找到付款条款

批量处理:

> 把 ./docs/ 下所有 PDF 转成 Markdown

Code Agent 会自动判断用哪种模式:

  • 小文件、快速é˜
    读 → flash-extract(å
    ç™»å½•,秒出结果)
  • 大文件、需要保留表格和å
    ¬å¼ → extract(高精度模式)

你不需要记任何命令参数。

为什么不用 MCP server

ç»™ Code Agent 加文档能力,很多人第一反应是"è£
个 MCP server"。比如跑一个本地的 document parsing 服务,é
ç½® JSON,再写好 tool çš„ schema。

能用,但太重了。

Skill 的优势是:

  1. **一行安è£
    **,不需要 Docker、不需要额外进程、不需要é
    ç½®æ–‡ä»¶
  2. 零运维,不用管服务是否在跑、端口有没有冲突
  3. 跨工å
    ·é€šç”¨
    ,同一个 Skill 在 Claude Code、Cursor、Kimi Code 里都能用
  4. 自动选择策略,Code Agent 自己决定用 flash 模式还是精度模式
  5. 开箱即用,è£
    完直接说话就行

MCP server 更适合需要长期运行、有复杂状态管理的场景。而"读一份 PDF"这种无状态的能力,用 Skill 是更轻量的选择。

底层的文档解析能力到底怎么样

底层用的是 MinerU,上海 AI Lab 开源的文档解析引擎,GitHub 56000+ Stars,OmniDocBench 评测综合排名第一。

MinerU 不是简单的文本提取工å
·ã€‚它是一个完整的 document AI 引擎,核心能力åŒ
括:

  • 版面分析:双栏、三栏、混合排版都能正确识别
  • **表格识别**:复杂嵌套表格保留结构,不会拆碎
  • **å
    ¬å¼è¯†åˆ«**:数学å
    ¬å¼è‡ªåŠ¨è½¬ LaTeX
  • OCR:扫描件、拍ç
    §æ–‡æ¡£ã€å›¾ç‰‡åž‹ PDF 都能处理,支持 80+ 种语言
  • 多格式输出:Markdown、Word、HTML、LaTeX、JSON

如果你在做 RAG pipeline,这意味着你可以直接在 Code Agent 里完成"PDF → 结构化 Markdown → 向量化"的前两步,不用额外写 PDF 解析代码。

如果你在选 best pdf parser for RAG,MinerU 在表格还原和å
¬å¼è¯†åˆ«ä¸Šçš„精度,是大多数 Python PDF parser 做不到的。

实é™

使用场景

场景一:读技术文档写代码

你在用一个 API,文档只有 PDF 版本。以前你得自己打开 PDF,翻到对应章节,再复制粘贴到对话里。现在:

> 读一下 api-reference.pdf,找到认证相å
³çš„部分,然后帮我写一个 Python 的认证 client

Code Agent 会自己解析 PDF,找到 auth 章节,理解参数和流程,然后直接写代码。

场景二:论文调研

你要调研某个方向的 5 篇论文:

> 把 ./papers/ 下面 5 篇 PDF 都读一遍,给我一个对比表格,列出每篇的方法、数据集、主要结果

场景三:处理扫描文档

法务给了一堆扫描的合同 PDF,你需要提取å
³é”®æ¡æ¬¾ï¼š

> 读 contract-2024.pdf,这是扫描件,帮我提取合同金额、付款期限、违约条款

MinerU çš„ OCR 会å
ˆæŠŠæ‰«æä»¶è½¬æˆæ–‡å­—,Code Agent 再理解å†
容并提取你要的信息。

场景四:文档格式转换

> 把 report.pdf 转成 Word 发给我
> 把 paper.pdf 转成 Markdown 存到 ./output/
> 把 slides.pptx 转成 Markdown

支持 PDF、图片、DOCX、PPTX、Excel 等格式的输å
¥ã€‚

安è£

真的只有一行:

npx skills add tanis90/pdf-converter-mineru

è£
完之后,如果你本地还没有 mineru-open-api CLI,Code Agent 会自动检测并引导你安è£
——不需要你自己去查文档。flash-extract 模式å
ç™»å½•可以直接用;如果需要高精度模式(大文件、导出 Word、批量处理),Code Agent 也会提示你做认证。

常见问题

文件大小有限制吗?

flash-extract 模式限制 10 MB / 20 页。extract 模式支持 200 MB / 600 页,覆盖绝大多数文档。

支持中文文档吗?

默认就支持中英混排。MinerU 的 OCR 覆盖 80+ 种语言,中日韩、阿拉伯语、泰语等都没问题。

和直接用 MinerU CLI 有什么区别?

直接用 CLI 你需要自己敲命令、管理输出文件、再把结果贴给 AI。è£
了 Skill 之后,Code Agent 自己完成整个流程——你只需要用自然语言描述你想做什么。

和 MCP server 方案怎么选?

如果你已经有在跑的 MCP server 生态,可以继续用。如果你只是想让 Code Agent 能读 PDF,Skill 是更轻量的方案——一行命令搞定,不需要额外的进程和é
ç½®ã€‚

总结

让 Code Agent 获得文档é˜
读能力,不需要é
 MCP server,不需要写代码,一行命令:

npx skills add tanis90/pdf-converter-mineru

è£
完之后,PDF、扫描件、Word、PPT、图片——直接丢给你的 Code Agent,让它自己读。

无论你用的是 Claude Code、Cursor、Kimi Code 还是 Cline,同一个 Skill,同一行命令。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐