OpenCV零基础实战项目1：OCR

2023-10-19 05:33:26

简述

Anaconda编译环境下，利用OpenCV和tesseract进行OCR文字识别。配置环境后，通过OpenCV的函数读取并对图像进行预处理。然后将处理好的图像进行pytesseract相关操作对字符进行识别和定位。得到字符的位置和内容信息后再通过OpenCV绘制。

1. 资源及配置

资源

代码资源：Fafa-DL/Opencv-project
视频资源：（强推）OpenCV超实用实战项目
案例图片：
在这里插入图片描述

环境配置

下载并安装
Windows：UB-Mannheim
/tesseract
解压并安装tesseract.exe，关注一下安装目录。本电脑为’D:\Install\Tessdoc\tesseract.exe’。
Anaconda配置
打开Anaconda prompt，输入以下命令行：
```
conda install pytesseract
```
若没有安装OpenCV，输入以下命令行：
```
conda install opencv
```

注：经实验想用tesseract以上两步缺一不可，有不严谨之处还请指出。

2. 单个字符识别的实现

导入模块
```
import pytesseract
import cv2 as cv
```
安装完成后为了能在cmd命令行直接使用tesseract.exe，需要指明tesseract_cmd命令的位置，方便pytesseract调用。也可以在目录中添加，可参考：pytesseract安装和基本使用
```
pytesseract.pytesseract.tesseract_cmd = 'D:\\Install\\Tessdoc\\tesseract.exe'
```
OpenCV图像预处理
```
img = cv.imread('E:\\CV\\pics\\1.png')
img = cv.cvtColor(img, cv.COLOR_BGR2RGB)
```
OpenCV以BGR读入，但pytesseract只能处理RGB格式的图片。
tesseract字符的识别
用到函数 pytesseract.image_to_boxes()，返回字符串，每行显示一个字符的内容和位置坐标。这里的boxes是string。
```
boxes = pytesseract.image_to_boxes(img)
```
形如：
字符信息的提取

将string类的boxes转换为字符组成的list，每一个list表示一个字符。然后提取出相应的位置坐标。
```
for b in boxes.splitlines():b=b.split()x,y,x1,y1 = int(b[1]), int(b[2]), int(b[3]), int(b[4])
```
print(b)以后得到：
OpenCV绘制框和内容

框选需要用到函数cv.rectangle()，标注需要cv.putText()。下面两张图分别是boxes中字母和数字的识别结果。

Boxes给出的坐标和绘制长方形的rectangle函数需要的参数坐标定义方式不一致，需要转换。
rectangle第二、三个参数是一组对角坐标，且坐标系是以图片的左上角点（顶部）为原点构建的。

关注boxes，对比字母和数字。已知字母M在数字1上方，字母第二个坐标值却大于数字的。可知越靠近图片下方，数值越小。纵坐标从底部向上增大。

对比1的第一个坐标值和第三个坐标值，仅相差6个像素。可知第三个坐标值应该是矩形某点横坐标。而第四个坐标值大于第二个坐标值，说明其是右上角点纵坐标。

故先计算出图片的长宽：
```
hImg,wImg,_ = img.shape
```
再绘制框和字符。提取和绘制的完整代码如下：
```
for b in boxes.splitlines():b=b.split(' ')x,y,x1,y1 = int(b[1]), int(b[2]), int(b[3]), int(b[4])cv.rectangle(img,(x1,hImg-y1),(x,hImg-y),(0,0,255),2)cv.putText(img,b[0],(x,hImg-y+25),cv.FONT_HERSHEY_COMPLEX,1,(50,50,255),1)   
```

图片显示
```
cv.imshow('Result',img)
cv.waitKey(0)
```

完整实现

import pytesseract
import cv2 as cvpytesseract.pytesseract.tesseract_cmd = 'D:\\Install\\Tessdoc\\tesseract.exe'#pretreatment
img = cv.imread('E:\\CV\\pics\\1.png')
img = cv.cvtColor(img, cv.COLOR_BGR2GRAY)
img = cv.cvtColor(img, cv.COLOR_GRAY2RGB)#print(pytesseract.image_to_string(img))
#print(pytesseract.image_to_boxes(img))hImg,wImg,_ = img.shape
#for characterboxes = pytesseract.image_to_boxes(img)for b in boxes.splitlines():#print(b)b=b.split(' ')#print(b)x,y,x1,y1 = int(b[1]), int(b[2]), int(b[3]), int(b[4])cv.rectangle(img,(x1,hImg-y1),(x,hImg-y),(0,0,255),2)cv.putText(img,b[0],(x,hImg-y+25),cv.FONT_HERSHEY_COMPLEX,1,(50,50,255),1)cv.imshow('Result',img)
cv.waitKey(0)

在这里插入图片描述

3. 词汇识别

用到函数pytesseract.image_to_data()，相较于pytesseract.image_to_boxes()可以获得更多信息。

运行

boxes = pytesseract.image_to_data(img)

得到boxes内容为：
在这里插入图片描述
观察可知，不需要第一行的信息。最后一列text即识别出的word。仅需绘制出有12个元素的对应信息。

此时，6、7、8和9（标号而不是第几个）给出的坐标值是左上x，y和宽、高。

识别与绘制部分代码如下：

#for words
boxes = pytesseract.image_to_data(img)
for x,b in enumerate(boxes.splitlines()):if x!=0:b=b.split()if len(b)==12:x,y,w,h = int(b[6]), int(b[7]), int(b[8]), int(b[9])cv.rectangle(img,(x,y),(x+w,y+h),(0,0,255),3)cv.putText(img,b[-1],(x,y-5),cv.FONT_HERSHEY_PLAIN,1.5,(50,50,255),2)

注意到x变量和enumerate()是为了排除第一行（0行）的干扰。
在这里插入图片描述

4. 数字的识别

对pytesseract.image_to_boxes()限制检测范围，数字digits。
声明一个命令：

cong=r'--oem 3 --psm 6 outputbase digits'

其中，–oem 3：
在这里插入图片描述
–psm 6

digits表示数字

识别与绘制部分代码如下：

cong = r'oem 2 --psm 6 outputbase digits'
boxes = pytesseract.image_to_boxes(img, config=cong)for b in boxes.splitlines():b=b.split()print(b)x,y,x1,y1 = int(b[1]), int(b[2]), int(b[3]), int(b[4])cv.rectangle(img,(x1,hImg-y1),(x,hImg-y),(0,0,255),2)cv.putText(img,b[0],(x,hImg-y+25),cv.FONT_HERSHEY_COMPLEX,1,(50,50,255),1)

在这里插入图片描述

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > Linux TCP拥塞控制接口
下一篇 > 实验：破坏centos6.1的/boot/grub/grub.cong文件

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce