领跑 AI-Ready 数据赛道:MinerU 全面深度适配主流国产算力,持续扩容生态版图
持续扩大算力兼容版图,通过与 DeepLink 团队及多家算力厂家的合作,针对不同架构的优化,能够实现在各类算力平台上实现稳定、高效的运行,有效解决了算力兼容性难题。团队、 DeepLink 团队及国产芯片厂家携手,先后完成了昇腾、平头哥、沐曦、海光、燧原、摩尔线程、天数智芯、寒武纪、昆仑芯、太初元碁、壁仞等 10 余家主流国产算力的适配。的核心价值在于其跨行业的普适性与极高的解析精度。,深耕 A
在人工智能加速迈向通用人工智能(AGI)的今天,“高质量数据”早已成为决定模型性能的核心命脉。作为文档语料提取处理领域的尖兵,智能文档语料解析引擎 MinerU 开源项目近期取得重要阶段性进展。
日前,上海人工智能实验室 OpenDataLab团队、 DeepLink 团队及国产芯片厂家携手,先后完成了昇腾、平头哥、沐曦、海光、燧原、摩尔线程、天数智芯、寒武纪、昆仑芯、太初元碁、壁仞等 10 余家主流国产算力的适配。此举旨在通过软硬件协同的全栈优化策略,深度适配各类算力,全面提升 MinerU项目的生态兼容性与适应力,赋能更多开发者与企业高效构建大模型语料基石。

⭐MinerU开源项目地址(获取详细部署文档):https://github.com/opendatalab/mineru
MinerU在线使用地址(网页解析功能已上线):https://mineru.net/OpenSourceTools/Extractor
MinerU文档智能抽取地址:https://mineru.net/kie/zh
2026 MinerU数据智能与前沿语料挑战赛官网:https://mineru.net/MDIC2026
DeepLink开源项目地址:https://github.com/DeepLink-org
在打造 AI-Ready 数据引擎进程中,MinerU 始终坚持自主创新与生态开放并重。为确保将海量非结构化文档转化为驱动大模型进化的高价值 AI 数据,MinerU 持续扩大算力兼容版图,通过与 DeepLink 团队及多家算力厂家的合作,针对不同架构的优化,能够实现在各类算力平台上实现稳定、高效的运行,有效解决了算力兼容性难题。在深耕国产化底座的同时,同样继续持续保持对国际主流算力平台的优化升级。这种双向兼容的策略,确保了全球用户在不同硬件环境下的一致体验。
MinerU的核心价值在于其跨行业的普适性与极高的解析精度。对于大模型研发而言,它是高效的语料生产引擎,能够支撑千万级规模文档向 AI-Ready 数据的快速转化;对于政企办公及科研领域,它则是精准的文档解析工具,极大提升了数字化办公的高质量发展。
依托自研的VLM模型,MinerU 对 PDF 及复杂网页的元素捕捉准确率可达 99%。无论是精密复杂的数学公式,还是嵌套繁琐的结构化表格MinerU 均能实现精准还原与结构化提取。
技术实力不仅体现于性能指标,更在于行业影响与生态认可。基于 MinerU核心能力构建过程中研发开源的 OmniDocBench 系列评测集,目前已被 Google Gemini 3 与 DeepSeek 等全球领军模型采纳为衡量文档解析能力的权威基准。

截至目前,已有超过 100 家战略性支柱产业的龙头骨干企业及 AI 创新企业将 MinerU 深度集成于业务流程。为进一步普惠技术成果,拓展MinerU数据处理边界,MinerU 打造了包含桌面端、网页版及在线 API 在内的全方位产品矩阵。MinerU 在深耕复杂文档解析的同时,现已将解析能力全面延伸至 HTML 网页结构化提取及文档智能抽取(KIE)等多元化场景。与此同时,MinerU所有在线端均向公众免费开放,帮助广大用户及各类机构降低高质量数据的使用门槛。

最新上线智能抽取(KIE)功能示意
在数据要素价值日益凸显的时代,MinerU 将继续发挥连接硬件算力与大模型产业的纽带作用,推动文档资产转化为先进生产力,为人工智能产业的高质量发展贡献力量。
作为“模塑申城语料普惠计划”的核心环节,2026 MinerU数据智能与前沿语料挑战赛目前正式启幕!本次大赛以构建「AI-Ready 数据」为核心驱动,旨在依托开源智能文档解析引擎 MinerU,深耕 AGI4S 前沿领域,致力于攻克复杂文献与多维科学数据的解析难题,为科研创新筑牢数据根基。同时,大赛紧扣产业转型需求,通过精准解析非结构化数据,加速行业应用场景的深度转化。
我们寻找能够挖掘非结构化数据深层价值、破解复杂数据解析难题的你!百万现金、百万算力、直通 WAIC 2026 世界舞台——征途已启,只待君来!立即报名:https://mineru.net/MDIC2026
更多推荐



所有评论(0)