java ocr 消除背景,一种增强OCR性能的背景图像消除方法与流程

2023-09-03 06:51:10

本发明涉及一种图像识别方法，具体的说是一种背景图像消除方法，属于互联网应用技术领域。

背景技术：

ocr技术在文档处理中有着广泛的应用。许多文档图像都嵌入了背景图像，例如支票、存折、驾驶执照、护照、证书等。虽然背景图像增强了文档的安全性或视觉效果，但它给ocr应用带来了困难。背景图像的某些部分可能会被识别为字符，这直接导致了错误的结果，并在ocr的后续处理步骤中造成麻烦。因此，在文本检测之前去除背景图像，对文档图像进行预处理是非常重要的。

ocr分析中背景图像的减法通常不可直接使用，在本发明中，将亮度失真和色度失真的概念应用于ocr背景图像的处理中，提出了一种新颖和经济的方法来消除背景图像/水印，以提高ocr的性能。

技术实现要素：

本发明的目的是提供一种增强ocr性能的背景图像消除方法，能够在识别图片含有背景图像时提高图片预处理后的清晰度，提升ocr识别字符的性能和抗干扰能力。

本发明的目的是这样实现的：一种增强ocr性能的背景图像消除方法，包括以下步骤：

步骤一：将图片中像素和背景图像像素间的差异分解为亮度和色度；

步骤二：对所输入的图像计算像素亮度失真；

步骤三：对所输入的图像计算像素色度失真；

步骤四：基于像素的亮度失真和色度失真分别对rgb三通道图像进行增强；

步骤五：将增强后的rgb三通道图像合并成灰度图像。

作为本发明的进一步限定，步骤一中所述分解像素和背景图像像素方法基于以下两种观察结果：

(1)与纯文本字符相比，背景图像的纹理和图案分布更丰富；

(2)彩色背景图像中每个像素的rgb值差异较大，对于文本字符rgb值的差异并不显著。

作为本发明的进一步限定，步骤一中所述分解像素和背景图像像素方法具体包括：

将图片像素和背景图像像素分解为亮度αi和色度βi，利用αi和βi的统计差异来作为参数估计，用以增强文档图像。

作为本发明的进一步限定，步骤二中所述亮度失真αi由最小化下述函数而得到：

其中，pi代表当前图像像素，ei代表背景图像像素，αi代表像素相对期望值的亮度增强，为最小化函数值，设定当前图像和参考图像亮度相同时αi为1，同样的，αi＜1代表比期望亮度要暗，αi＞1代表比期望亮度要亮。

作为本发明的进一步限定，步骤三中所述色度失真βi定义为观察到的颜色与期望色度线之间的正交距离，可以由如下公式表示：

βi＝‖pi-αiei‖

其中，pi代表当前图像像素，ei代表背景图像像素，αi代表步骤二中确定的亮度失真值。

作为本发明的进一步限定，步骤四中所述图像增强方法在不改变前景文本的情况下去除颜色背景，并确保每个像素有r、g和b三个值；如果原始图像没有在rgb的颜色空间中表示，则需要转换为rgb。

作为本发明的进一步限定，步骤四中所述图像增强方法使用非线性变换来增强每个通道图像的对比度，在保持灰度像素的同时扩大彩色像素的色差，可以由如下公式表示：

qi＝max{0,min[255,(pi-128)*βi+αi]}

其中pi为原始像素值，qi为调整后像素值，亮度αi用来调整图像的亮度。

作为本发明的进一步限定，步骤五中所述图像通道合并方法用于将三个通道的图像合并成一个灰度图像，如下公式所示：

s＝|r-g|+|r-b|+|g-b|

其中，r,g,b分别为通道图像增强后的红、绿、蓝值，s是三者间差值的和；在此基础上，根据不同文档的特性设定一个阈值t；如果s＞t，则：

fi＝min[255,(r+g+b)]

否则，若s≤t：

fi＝min[255,(r+g+b)/3]

其中fi为合并后的像素值。

作为本发明的进一步限定，步骤五中所述图像通道合并方法得到合并像素值之后，如果像素仍属于彩色背景图像，则再次放大像素值，最终得到灰度图像；其中，背景图像像素值接近255，文本图像像素值接近0。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明将图片像素和背景图像像素分解为亮度αi和色度βi，利用αi和βi的统计差异来作为参数估计，基于像素的亮度失真和色度失真分别对rgb三通道图像进行增强，将增强后的rgb三通道图像合并成灰度图像，以实现对背景图像的消除，提升了ocr的性能。

附图说明

图1为本发明实施例提供的方法步骤示意图。

图2为本发明实施例提供的亮度和色度分解示意图。

图3为采用本发明方法对待ocr识别的图像处理的对比图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

首先如图1所示：一种增强ocr性能的背景图像消除方法，该方法包括以下步骤：

步骤一：将图片中像素和背景图像像素间的差异分解为亮度和色度；

步骤二：对所输入的图像计算像素亮度失真；

步骤三：对所输入的图像计算像素色度失真；

步骤四：基于像素的亮度失真和色度失真分别对rgb三通道图像进行增强；

步骤五：将增强后的rgb三通道图像合并成灰度图像。

步骤一中所述分解像素和背景图像像素方法基于以下两种观察结果：

(1)与纯文本字符相比，背景图像的纹理和图案分布更丰富；

(2)彩色背景图像中每个像素的rgb值差异较大，对于文本字符rgb值的差异并不显著。

如图2所示，步骤一中所述分解像素和背景图像像素方法在于将图片像素和背景图像像素分解为亮度αi和色度βi，利用αi和βi的统计差异来作为参数估计，用以增强文档图像，使其更容易去除背景。

步骤二中所述亮度失真αi由最小化下述函数而得到：

其中，pi代表当前图像像素，ei代表背景图像像素，αi代表像素相对期望值的亮度增强。为最小化函数值，设定当前图像和参考图像亮度相同时αi为1，同样的，αi＜1代表比期望亮度要暗，αi＞1代表比期望亮度要亮。

步骤三中所述色度失真βi定义为观察到的颜色与期望色度线之间的正交距离，可以由如下公式表示：

βi＝‖pi-αiei‖

其中pi代表当前图像像素，ei代表背景图像像素，αi代表步骤二中确定的亮度失真值。

步骤四中所述图像增强方法在不改变前景文本的情况下去除颜色背景，首先要确保每个像素有r、g和b三个值。如果原始图像没有在rgb的颜色空间中表示，那么我们应该先进行转换。因为，rgb虽然是常用的，但还有如hsi、hsv、cmy和yuv等颜色空间，根据实验发现，在rgb空间中，颜色背景图像像素与文本像素的区分比其他空间更容易。

步骤四中所述图像增强方法使用非线性变换来增强每个通道图像的对比度，从而在保持灰度像素的同时扩大彩色像素的色差，经过增强处理后，彩色背景中的像素更加突出，可以有效地与文本像素区分开来。可以由如下公式表示：

qi＝max{0,min[255,(pi-128)*βi+αi]}

其中pi为原始像素值，qi为调整后像素值，亮度αi用来调整图像的亮度，适当的亮度有助于区分前景和背景。

步骤五中所述图像通道合并方法用于将三个通道的图像合并成一个灰度图像，如下公式所示：

s＝|r-g|+|r-b|+|g-b|

其中r,g,b分别为通道图像增强后的红、绿、蓝值，s是三者间差值的和。在此基础上，根据不同文档的特性设定一个阈值t。如果s＞t，则：

fi＝min[255,(r+g+b)]

否则，若s≤t：

fi＝min[255,(r+g+b)/3]

其中fi为合并后的像素值。

步骤五中所述图像通道合并方法得到合并像素值之后，如果像素仍属于彩色背景图像，则再次放大像素值，最终得到灰度图像。其中，背景图像像素值接近255，文本图像像素值接近0。

本发明方法采用tesseract引擎进行测试，并与abbyyfinereader和汉王两种商用ocr软件进行了比较；在文本区域中，tesseract的性能优于abbyyfinereader和汉王，去除背景图像后，识别精度明显提高。尤其对一些背景复杂的图像(分辨率低或背景丰富)的改进是显著的。如图3所示，为采用本发明方法处理一幅图像的示例图，由图可以清晰看出效果较佳。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > Matlab GUI 界面编程：界面背景设置
下一篇 > 技术支持和测试的区别_测试的策略有哪些？

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

java ocr 消除背景,一种增强OCR性能的背景图像消除方法与流程

相关文章