windows安装tesseract-OCR及使用

tesseract是Python的一个OCR(光学字符识别)库首先下载tesseract的exe安装文件 https://github.com/UB-Mannheim/tesseract/wiki安装时可以将语言包选上（比如不选择的话，默认的只能解析英文）配置环境变量配置完成后：cmd输入命令输入命令tesseract --list-langs 可以支持...

ShirleyQueen321

15627人浏览 · 2018-08-26 17:20:01

ShirleyQueen321 · 2018-08-26 17:20:01 发布

tesseract是Python的一个OCR(光学字符识别)库

首先下载tesseract的exe安装文件 https://github.com/UB-Mannheim/tesseract/wiki

安装时可以将语言包选上（比如不选择的话，默认的只能解析英文）

配置环境变量

配置完成后：

cmd输入命令

输入命令tesseract --list-langs 可以支持的语言：

这是我要识别的图片

这是识别出来的文字：成功率还是很高的

摘 要: 为高效精确地提取存在于互联网中的灾害主题网页文本信息,引入本体语义,提出一种新的灾害主题疏虫
策略。给出本体语义支持的灾害主题疏虫框架和流程,改进本体概念语义相似度计算方法,利用语义相似度计算
主题语义向量,通过 HTML 位置加权获取网页文本特征向量,并进行主题相关度计算。设计 URL 锚文本主题相关
度计算方法,分析 URL 链接优先度 ,优化疏行队列。选取地震灾害和气象灾害2 个主题进行测试与分析 ,实验结果
表明 ,该策略能有效提高稳定性和疏准率。

关键词: 主题怜虫本体;语义相似度;向量空间模型;相关度计算 ;锚文本

我们可以用来识别验证码

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

从GPT到智能体：OpenCSG带你看清AI技术演进的下一站

2048 AI社区

声音相关问题(AI回答)

低八度和高八度是频率成倍（×2 或 ÷2）的关系，因为这个倍数正好对应人耳最强的谐波重叠 + 最简单的整数比 + 对数感知，所以它们在音乐里被视为“同一个音的不同高度版本”——这就是为什么钢琴键盘上每个八度都重复相同的白黑键布局，为什么唱歌时“高八度”听起来还是同一个旋律。八度 = 频率翻倍，音名不变。这是音乐里最“亲”的亲戚关系，几乎所有音乐体系都把八度当成“等价类”。和声（harmony）

2048 AI社区

【强烈收藏】想让AI助手安全访问外部工具？一文掌握MCP协议开发大模型应用

本文详细介绍模型上下文协议(MCP)，作为AI助手与外部系统沟通的桥梁。从Python环境搭建到MCP核心逻辑解析，包括必装工具、配置指南和三层架构。MCP可实现数据访问、操作执行和功能扩展，广泛应用于数据分析、开发自动化和文档生成等场景。文章为后续实战MCP应用开发做好准备，是AI开发者进阶必备技术指南。