MinerU再次更新,网页解析功能上线!URL一键变Markdown,文档处理再无边界
导言:各位的铁粉们,你们的“生产力神兵”又进化了!还在为DeepResearch获取网页信息、网页知识库构建、复杂网页内容提取、网页文章复制乱码等场景感到头疼吗?在 AI 数据处理领域,以和为代表的行业先行者已经为我们展示了“网页转 LLM 友好格式”的巨大潜力,这次我们直接把深度优化的“网页解析”功能装进了网页端与桌面端,凭借在公式、表格识别上的深厚积淀,让整个互联网都成为你的 AI-Ready
导言:
各位 MinerU 的铁粉们,你们的“生产力神兵”又进化了!还在为DeepResearch获取网页信息、网页知识库构建、复杂网页内容提取、网页文章复制乱码等场景感到头疼吗?
在 AI 数据处理领域,以 Jina AI 和 Firecrawl 为代表的行业先行者已经为我们展示了“网页转 LLM 友好格式”的巨大潜力,但 MinerU 决定再往前走一步。 这次我们直接把深度优化的“网页解析”功能装进了 MinerU 网页端与桌面端,凭借在公式、表格识别上的深厚积淀,让整个互联网都成为你的 AI-Ready 语料库!
今天,我们边上手边拆解,带你玩转MinerU 的“网页解析”功能
● 在线体验(直接进入网页解析功能):https://mineru.net/OpenSourceTools/Extractor
● 技术报告链接:https://arxiv.org/pdf/2511.16397v1
● 模型链接:https://huggingface.co/opendatalab/MinerU-HTML
一、网页解析“统一入口”:动态网页秒变AI-Ready语料
这次更新的核心利器——“MinerU HTML”网页解析系统,正式上线网页端与桌面客户端。大家可以在 MinerU网页端和桌面客户端通过简单的 URL 输入,实现网页到 Markdown 的完美转换。解析成功后,你会看到超酷的左右分栏视图,左边是网页快照,右边是清晰的 Markdown 或 JSON。支持高质量缩放,对照查看,所见即所得!
核心亮点:
1. 极致转化,秒变 Markdown。无需复杂操作,在统一输入框内粘贴网址,无论是图文并茂的深度长文,还是结构复杂的动态页面,MinerU 都能将其精准转化为逻辑严密、结构清晰的 Markdown 文档。
2. 深度解析,继承技术优势。该功能充分继承了 MinerU 在公式、表格识别领域的领先优势。网页中嵌入的复杂科学公式、嵌套表格均能被精准还原,确保解析后的文档具备极高的可读性与专业性,完美适配学术研究与专业分析场景。
3. 韧性解析,自带“重试”机制。如果动态加载出现问题,系统会自动切换重试。无论是复杂的交互页面还是难以提取信息的站点,在 MinerU面前统统都要乖乖变回结构化的数据。
4. 无惧动态渲染,深度兼容。针对现代网页常见的 React、Vue 等框架生成的动态内容,MinerU 展现了强大的解析能力。告别乱码与格式错位,让“所见即所得”成为现实。
5. 纯净体验,去冗留精。系统会自动识别并过滤广告干扰、侧边栏杂讯及无关链接,剔除冗余信息,只为您提取最核心、最纯净的高价值内容。


目前,网页端与桌面客户端我们提供了每人每日 100次的免费配额,助您轻松提取网页,让网页信息的获取与利用效率实现指数级飞跃!
💡 小贴士:如果遇到无法直接访问的“深网”内容怎么办?
别担心!MinerU除了支持 URL 链接解析,还支持本地 HTML 文件上传解析。你可以通过以下简单的手动步骤获取动态网页的 HTML,再交给 MinerU 处理:
1. 打开开发者工具:在页面上点击鼠标右键,选择“检查”(Inspect),或者按快捷键 F12(Mac 为 Cmd + Option + I)。
2. 定位到根节点:在弹出的面板中切换到 “Elements”(元素)标签页。
3. 定位并复制HTML:滚动至顶部,找到 <html> 标签,点击右键选择 “Copy” -> “Copy outerHTML”。
4. 保存为本地文件:将内容粘贴至文本编辑器(如记事本、VS Code),保存为 .html 文件即可上传至 MinerU 进行解析。

二、开发者福利:API 侧的“逻辑大一统”
如果你是开发者或研究员,面对海量的资讯采集、竞品追踪或学术文献收集任务,手动操作显然不是长久之计。这时候,MinerU 的 API 接口便是为你量身定制的“自动化利器”。
为了让开发者的逻辑更简洁,我们重构了输入流程,多源输入,一个接口搞定 。不同于网页端与桌面客户端注重即时交互的体验,API 侧更强调逻辑的整合性:我们特意将 HTTP 文件上传与 URL 上传接口进行了“大统一”。无论你输入的是 PDF 文件还是网页链接,一个接口即可完成所有分发,极大降低了代码维护成本。
在 API 侧,我们赋予了数据解析前所未有的“透明度”,透明化解析,进度尽在掌握 。响应包中新增的 fetch_status 字段,让你能实时洞察每一个网页的抓取状态。无论是复杂的动态渲染过程,还是特殊的请求反馈,后台数据一目了然,让你的程序逻辑更加稳健可靠。
配合系统自带的“智能路由”功能,不管是混合了 PDF、网页还是截图的复杂任务,MinerU 都能在后台自动并行处理,最后为你吐出整齐划一的高质量数据。
你可以试着将它接入 Dify 或 Notion 等工具。只需简单配置一下 API 密钥,MinerU 就能化身为你的自动化“知识中枢”,在后台静默而高效地收割全网干货。


(API调用方法,详细内容可查看 MinerU 官网 API 文档)
结语:MinerU 正在努力打破文档、网页与大模型之间的信息围墙,致力于成为您工作流中不可或缺的“信息获取中枢”。无论是为 RAG 知识库提供不失真的 Markdown 语料,还是为 Agent 工具链输送结构化的业务字段,MinerU 始终坚持 “AI-Ready” 的核心目标。
现在就去登录网页端或更新桌面端,让互联网碎片秒变高质量 AI 资产! 如果您在使用中发现解析不准,请直接“点踩”反馈。您的每一条意见,都是我们打磨“数据神兵”的动力!
立即体验 MinerU 网页解析新功能!
更多推荐


所有评论(0)