• PaddleOCR 是由百度飞桨团队开发的开源 OCR(光学字符识别)工具,支持从文本识别到文档理解的全流程解决方案。
  • 它能够将文档和图像转换为结构化、AI 友好的数据(如 JSON 和 Markdown),精度达到行业领先水平。
  • PaddleOCR 已获得超过 60,000 星标,被广泛应用于全球开发者、初创企业和大型企业的 AI 应用中。
  • github项目地址:https://github.com/PaddlePaddle/PaddleOCR
  • 在这里插入图片描述

核心能力

PaddleOCR 3.0 核心能力
  • PaddleOCR-VL:通过 0.9B 超紧凑视觉语言模型增强多语种文档解析,支持 109 种语言,资源消耗极低。

  • 在这里插入图片描述

  • PP-OCRv5:单模型支持五种文字类型(简中、繁中、英文、日文及拼音),精度提升 13 个百分点,解决多语言混合文档的识别难题。

  • PP-StructureV3:将复杂 PDF 和文档图像智能转换为保留原始结构的 Markdown 文件和 JSON 文件,领先众多商业方案。在这里插入图片描述

  • PP-ChatOCRv4:原生集成 ERNIE 4.5,从海量文档中精准提取关键信息,精度较上一代提升 15 个百分点。

最新动态

2025.10.16:PaddleOCR 3.3.0 发布
  • PaddleOCR-VL:发布 PaddleOCR-VL 模型,支持 109 种语言,显著优于现有方案。
  • PP-OCRv5 小语种识别模型:优化拉丁文识别,新增西里尔文、阿拉伯文等语系,覆盖 109 种语言文字,部分模型精度较上一代提升 40% 以上。
2025.08.21:PaddleOCR 3.2.0 发布
  • 新增模型:新增 PP-OCRv5 英文、泰文、希腊文识别模型。
  • 部署能力升级:全面支持飞桨框架 3.1.0 和 3.1.1 版本,支持 CUDA 12 高性能推理。
  • Bug 修复:修复模型训练日志保存失败等问题。
2025.06.26:PaddleOCR 3.0.3 发布
  • 新增模型和产线:新增 PP-OCRv5 多语种文本识别模型,支持 37 种语言,平均精度涨幅超 30%。
  • MCP Server:支持 OCR 和 PP-StructureV3 两种工具,支持本地和远程服务。

快速开始

在线体验
  • 提供了多个在线体验平台,如 AIStudio 等。
本地安装
  • 安装 PaddlePaddle 和 PaddleOCR:
    python -m pip install paddleocr
    
  • 安装完整功能:
    python -m pip install "paddleocr[all]"
    
命令行推理
  • 示例:
    paddleocr ocr -i <image_url>
    paddleocr pp_structurev3 -i <image_url>
    paddleocr doc_parser -i <image_url>
    
API 推理
  • 提供了 Python API 示例代码,支持 PP-OCRv5、PP-StructureV3、PP-ChatOCRv4 和 PaddleOCR-VL 的推理。

更多特性

  • 模型转换:支持将模型转换为 ONNX 格式。
  • 高性能推理:支持 OpenVINO、ONNX Runtime、TensorRT 等引擎加速推理。
  • 多语言支持:支持 C++、C#、Java 等语言的服务化部署。

进阶指南

  • 提供了详细的使用教程,包括 PP-OCRv5、PP-StructureV3、PP-ChatOCRv4 和 PaddleOCR-VL 的使用方法。

社区与贡献

  • 开发者社区:提供了飞桨公众号和开发者交流群的二维码。
  • 贡献者:感谢所有为 PaddleOCR 做出贡献的开发者和合作伙伴。

学术引用

  • 提供了 PaddleOCR 3.0 和 PaddleOCR-VL 的学术引用格式。

许可协议

  • PaddleOCR 项目采用 Apache 2.0 许可协议。

总结

PaddleOCR 是一个功能强大、易于使用的 OCR 工具,适用于多种场景,包括文本识别、文档解析和信息抽取。它提供了丰富的模型和工具,支持多种语言和硬件平台,是 AI 开发者构建智能文档应用的首选解决方案。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐