1 PaddleOCR是什么?

官网介绍:

https://www.paddlepaddle.org.cn/hub/scene/ocr

PaddleOCR由 百度飞桨 (PaddlePaddle)团队开发,基于 百度飞桨 深度学习平台构建。飞桨是百度自主研发的开源深度学习框架,提供从数据准备、模型训练到部署的全流程支持,而OCR( 光学字符识别 )是该框架在文字识别领域的具体应用。PaddleOCR 将文档和图像转换为结构化、AI友好的数据(如JSON和Markdown)。

1.1 PaddlePaddle(飞桨)与PaddleOCR的主要区别?

paddle paddleocr
‌定位与功能 PaddlePaddle是百度开发的深度学习框架,提供从模型训练到部署的全流程支持,适用于计算机视觉、自然语言处理等多种AI任务 PaddleOCR是基于PaddlePaddle框架构建的专用OCR工具库,专注于文本检测、识别及多语言处理,提供预训练模型可直接调用
‌使用场景 PaddlePaddle适合需要自定义模型开发的场景,如特殊字体或高精度要求的数字识别 PaddleOCR适用于通用OCR任务(如文档、票据识别),支持开箱即用,无需深度学习背景
技术栈 PaddlePaddle需用户自行设计模型架构并训练,技术门槛较高 PaddleOCR内置文本检测(如DB算法)、识别(如CRNN)等模块,简化了OCR流程

PaddleOCR依赖PaddlePaddle运行。
1.2 光学字符识别(Optical Character Recognition, OCR)是指对文本材料的图像文件进行分析识别处理,以获取文字和版本信息的过程。也就是说将图象中的文字进行识别,并返回文本形式的内容。
介绍文档:https://aistudio.baidu.com/projectdetail/507159

1.3 PaddleHub又是什么?
PaddleHub是飞桨的通用模型工具,PaddleHub旨在为开发者提供丰富的、高质量的、直接可用的预训练模型,而PaddleOCR是其生态中针对OCR任务的专用库。两者可协同使用(如通过PaddleHub调用OCR模型).

1.4 https://github.com/PaddlePaddle/PaddleOCR/blob/main/readme/README_cn.md看到最新版本和模型
在这里插入图片描述

在这里插入图片描述
1.5 先了解OCR的工作原理(参考https://aistudio.baidu.com/projectdetail/507159)
在这里插https://aistudio.baidu.com/projectdetail/507159入图片描述

1.6 使用到了PP-OCRv5,本机是cpu,目的是对车辆车牌进行识别。本次Python版本是3.10.0(版本低从或高会影响后续使用,具体是否支持再搜下)。
PP-OCRv5介绍:

https://gitee.com/paddlepaddle/PaddleOCR/blob/main/docs/version3.x/algorithm/PP-OCRv5/PP-OCRv5.md

分别介绍了文本检测和文本识别的不同模型性能区别;

安装命令:

python -m pip install paddlepaddle -i https://www.paddlepaddle.org.cn/packages/stable/cpu/

python -m pip install paddleocr -i https://www.paddlepaddle.org.cn/packages/stable/cpu/

可能提升确实依赖包根据提示安装。

使用API方式测试的官方提供测试代码:

from paddleocr import PaddleOCR
# 初始化 PaddleOCR 实例
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False)

# 对示例图像执行 OCR 推理 
result = ocr.predict(
    input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
    
# 可视化结果并保存 json 结果
for res in result:
    res.print()
    res.save_to_img("output")
    res.save_to_json("output")
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐