导言:

各位 MinerU 的铁粉们,你们的“生产力神兵”又进化了!还在为DeepResearch获取网页信息、网页知识库构建、复杂网页内容提取、网页文章复制乱码等场景感到头疼吗?

在 AI 数据处理领域,以 Jina AI 和 Firecrawl 为代表的行业先行者已经为我们展示了“网页转 LLM 友好格式”的巨大潜力,MinerU 决定再往前走一步。 这次我们直接把深度优化的“网页解析”功能装进了 MinerU 网页端与桌面端,凭借在公式、表格识别上的深厚积淀,让整个互联网都成为你的 AI-Ready 语料库!

今天,我们边上手边拆解,带你玩转MinerU 的“网页解析”功能

● 在线体验(直接进入网页解析功能):https://mineru.net/OpenSourceTools/Extractor

● 技术报告链接:https://arxiv.org/pdf/2511.16397v1

● 模型链接:https://huggingface.co/opendatalab/MinerU-HTML

一、网页解析“统一入口”:动态网页秒变AI-Ready语料

这次更新的核心利器——“MinerU HTML”网页解析系统,正式上线网页端与桌面客户端。大家可以在 MinerU网页端和桌面客户端通过简单的 URL 输入,实现网页到 Markdown 的完美转换。解析成功后,你会看到超酷的左右分栏视图,左边是网页快照,右边是清晰的 Markdown 或 JSON。支持高质量缩放,对照查看,所见即所得!

核心亮点:

1. 极致转化,秒变 Markdown。无需复杂操作,在统一输入框内粘贴网址,无论是图文并茂的深度长文,还是结构复杂的动态页面,MinerU 都能将其精准转化为逻辑严密、结构清晰的 Markdown 文档。

2. 深度解析,继承技术优势。该功能充分继承了 MinerU 在公式、表格识别领域的领先优势。网页中嵌入的复杂科学公式、嵌套表格均能被精准还原,确保解析后的文档具备极高的可读性与专业性,完美适配学术研究与专业分析场景。

3. 韧性解析,自带“重试”机制。如果动态加载出现问题,系统会自动切换重试。无论是复杂的交互页面还是难以提取信息的站点,在 MinerU面前统统都要乖乖变回结构化的数据。

4. 无惧动态渲染,深度兼容。针对现代网页常见的 React、Vue 等框架生成的动态内容,MinerU 展现了强大的解析能力。告别乱码与格式错位,让“所见即所得”成为现实。

5. 纯净体验,去冗留精。系统会自动识别并过滤广告干扰、侧边栏杂讯及无关链接,剔除冗余信息,只为您提取最核心、最纯净的高价值内容。

图片

图片


目前,网页端与桌面客户端我们提供了每人每日 100次的免费配额,助您轻松提取网页,让网页信息的获取与利用效率实现指数级飞跃!

💡 小贴士:如果遇到无法直接访问的“深网”内容怎么办?

别担心!MinerU除了支持 URL 链接解析,还支持本地 HTML 文件上传解析。你可以通过以下简单的手动步骤获取动态网页的 HTML,再交给 MinerU 处理:

1. 打开开发者工具:在页面上点击鼠标右键,选择“检查”(Inspect),或者按快捷键 F12(Mac 为 Cmd + Option + I)。

2. 定位到根节点:在弹出的面板中切换到 “Elements”(元素)标签页。

3. 定位并复制HTML:滚动至顶部,找到 <html> 标签,点击右键选择 “Copy” -> “Copy outerHTML”。

4. 保存为本地文件:将内容粘贴至文本编辑器(如记事本、VS Code),保存为 .html 文件即可上传至 MinerU 进行解析。

图片

二、开发者福利:API 侧的“逻辑大一统”

如果你是开发者或研究员,面对海量的资讯采集、竞品追踪或学术文献收集任务,手动操作显然不是长久之计。这时候,MinerU 的 API 接口便是为你量身定制的“自动化利器”。

为了让开发者的逻辑更简洁,我们重构了输入流程,多源输入,一个接口搞定 。不同于网页端与桌面客户端注重即时交互的体验,API 侧更强调逻辑的整合性:我们特意将 HTTP 文件上传与 URL 上传接口进行了“大统一”。无论你输入的是 PDF 文件还是网页链接,一个接口即可完成所有分发,极大降低了代码维护成本。

在 API 侧,我们赋予了数据解析前所未有的“透明度”,透明化解析,进度尽在掌握 。响应包中新增的 fetch_status 字段,让你能实时洞察每一个网页的抓取状态。无论是复杂的动态渲染过程,还是特殊的请求反馈,后台数据一目了然,让你的程序逻辑更加稳健可靠。

配合系统自带的“智能路由”功能,不管是混合了 PDF、网页还是截图的复杂任务,MinerU 都能在后台自动并行处理,最后为你吐出整齐划一的高质量数据。

你可以试着将它接入 Dify 或 Notion 等工具。只需简单配置一下 API 密钥,MinerU 就能化身为你的自动化“知识中枢”,在后台静默而高效地收割全网干货。

图片

图片

(API调用方法,详细内容可查看 MinerU 官网 API 文档)

结语:MinerU 正在努力打破文档、网页与大模型之间的信息围墙,致力于成为您工作流中不可或缺的“信息获取中枢”。无论是为 RAG 知识库提供不失真的 Markdown 语料,还是为 Agent 工具链输送结构化的业务字段,MinerU 始终坚持 “AI-Ready” 的核心目标。

现在就去登录网页端或更新桌面端,让互联网碎片秒变高质量 AI 资产! 如果您在使用中发现解析不准,请直接“点踩”反馈。您的每一条意见,都是我们打磨“数据神兵”的动力!

立即体验 MinerU 网页解析新功能!

https://mineru.net/OpenSourceTools/Extractor

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐