用 Python 搭建图片 OCR 识别 API 服务，自动提取图片文字并返回结果

介绍一个基于Python的图片OCR识别API服务解决方案。该服务使用Flask框架搭建HTTP接口，结合DrissionPage实现浏览器自动化操作，能够接收上传的图片文件（支持jpg/png/gif等格式），调用AI工具自动提取文字内容并以JSON格式返回结果。核心功能包括浏览器初始化、图片处理逻辑和API接口设计（含健康检查）。文章提供了完整的安装部署指南和调用示例，并给出了生产环境的使用建

梅孔立

620人浏览 · 2025-08-13 13:26:39

梅孔立 · 2025-08-13 13:26:39 发布

用Python搭建图片OCR识别API服务，自动提取图片文字并返回结果

在日常开发中，我们经常需要处理图片中的文字内容。本文将介绍如何使用Python搭建一个图片文字识别API服务，通过AI自动提取图片中的文字，并以指定格式返回结果。

功能说明

这个API服务主要实现以下功能：

提供HTTP接口，接收图片文件上传
调用AI工具识别图片中的文字内容
支持多种图片格式（jpg、png、gif等）

技术栈

Web框架：Flask（轻量级Python Web框架）
浏览器自动化：DrissionPage（处理网页交互和文件上传）
开发语言：Python 3.8+

图片demo为

在这里插入图片描述

实现效果为

通过postman调用传入图片可自动返回解析内容

在这里插入图片描述

具体代码可私聊

核心功能模块

浏览器初始化：
- 使用DrissionPage创建浏览器实例
- 加载AI，提高处理效率
图片处理逻辑：
- 自动上传图片到AI
- 发送文字提取指令
- 设置超时机制（60秒），避免无限等待
API接口设计：
- /process-image：POST方法，接收图片并返回识别结果
- /health：GET方法，用于服务健康检查
- 完整的错误处理和格式校验

使用方法

安装依赖：

pip install flask drissionpage

修改配置：
- 将user_data_path修改为实际路径
- 根据需要调整max_wait_time（超时时间）和check_interval（检查间隔）
启动服务：

python image_processing_api.py

调用接口（Python示例）：

import requests

url = 'http://你的IP地址:5000/process-image'
files = {'image': open('test.jpg', 'rb')}

response = requests.post(url, files=files)
print(response.json())

注意事项

服务默认运行在5000端口，可通过修改app.run()中的port参数调整
生产环境使用时，建议添加身份验证和请求限流
浏览器可能需要定期重启，避免内存占用过高
若AI网站DOM结构变化，可能需要调整XPath表达式

通过这个API服务，你可以轻松实现图片文字的批量提取，适用于文档电子化、数据录入等场景。如果有更复杂的需求，还可以扩展代码支持多图批量处理、结果格式化等功能。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

B端拓客号码核验：行业困局审视与技术革新的路径探索氪迹科技法人股东号码筛选系统

B端客户拓展中，核心决策人号码核验存在三大痛点：精准度低导致无效线索占比高、定价不规范推高批量使用成本、静态数据更新滞后造成隐性损耗。新型AI实时核验模式通过算法赋能实现98%精准度，实时运算解决数据滞后问题，并将成本降至行业均价的1/3，为电销、金融、B2B营销等场景提供高效解决方案。该模式以技术替代传统人工清洗，实现"精准、高效、低成本"的协同优化，推动B端拓客行业向&qu