python识别网页验证码_Python识别验证码

2023-10-03 20:05:55

[博客园CNblogs@小五义](http://www.cnblogs.com/xiaowuyi)

用python加“验证码”为关键词在baidu里搜一下，可以找到很多关于验证码识别的文章。我大体看了一下，主要方法有几类：一类是通过对图片进行处理，然后利用字库特征匹配的方法，一类是图片处理后建立字符对应字典，还有一类是直接利用ocr模块进行识别。不管是用什么方法，都需要首先对图片进行处理，于是试着对下面的验证码进行分析。

**一、图片处理**

![](http://pic002.cnblogs.com/images/2012/383503/2012090716463726.png)

这个验证码中主要的影响因素是中间的曲线，首先考虑去掉图片中的曲线。考虑了两种算法：

第一种是首先取到曲线头的位置，即x=0时，黑点的位置。然后向后移动x的取值，观察每个x下黑点的位置，判断前后两个相邻黑点之间的距离，如果距离在一定范围内，可以基本判断该点是曲线上的点，最后将曲线上的点全部绘成白色。试了一下这种方法，结果得到的图片效果很一般，曲线不能完全去除，而且容量将字符的线条去除。

第二种考虑用单位面积内点的密度来进行计算。于是首先计算单位面积内点的个数，将单位面积内点个数少于某一指定数的面积去除，剩余的部分基本上就是验证码字符的部分。本例中，为了便于操作，取了5*5做为单位范围，并调整单位面积内点的标准密度为11。处理后的效果：

![](http://pic002.cnblogs.com/images/2012/383503/2012090716461987.jpg)

**二、字符验证**

这里我使用的方法是利用pytesser进行ocr识别，但由于这类验证码字符的不规则性，使得验证结果的准确性并不是很高。具体哪位大牛，有什么好的办法，希望能给指点一下。

**三、准备工作与代码实例**

1、PIL、pytesser、tesseract

(1)安装PIL：下载地址：http://www.pythonware.com/products/pil/

(2)pytesser:下载地址：http://code.google.com/p/pytesser/ ，下载解压后直接放在代码相同的文件夹下，即可使用。

(3)Tesseract OCR engine下载：http://code.google.com/p/tesseract-ocr/ 下载后解压，找到tessdata文件夹，用其替换掉pytesser解压后的tessdata文件夹即可。

[TOC]

2、具体代码

![复制代码](http://common.cnblogs.com/images/copycode.gif)

~~~

#encoding=utf-8

###利用点的密度计算

import Image,ImageEnhance,ImageFilter,ImageDraw

import sys

from pytesser import *

#计算范围内点的个数

def numpoint(im):

w,h = im.size

data = list( im.getdata() )

mumpoint=0

for x in range(w):

for y in range(h):

if data[ y*w + x ] !=255:#255是白色

mumpoint+=1

return mumpoint

#计算5*5范围内点的密度

def pointmidu(im):

w,h = im.size

p=[]

for y in range(0,h,5):

for x in range(0,w,5):

box = (x,y, x+5,y+5)

im1=im.crop(box)

a=numpoint(im1)

if a<11:##如果5*5范围内小于11个点，那么将该部分全部换为白色。

for i in range(x,x+5):

for j in range(y,y+5):

im.putpixel((i,j), 255)

im.save(r'img.jpg')

def ocrend():##识别

image_name = "img.jpg"

im = Image.open(image_name)

im = im.filter(ImageFilter.MedianFilter())

enhancer = ImageEnhance.Contrast(im)

im = enhancer.enhance(2)

im = im.convert('1')

im.save("1.tif")

print image_file_to_string('1.tif')

if __name__=='__main__':

image_name = "1.png"

im = Image.open(image_name)

im = im.filter(ImageFilter.DETAIL)

im = im.filter(ImageFilter.MedianFilter())

enhancer = ImageEnhance.Contrast(im)

im = enhancer.enhance(2)

im = im.convert('1')

##a=remove_point(im)

pointmidu(im)

ocrend()

~~~

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

python识别网页验证码_Python识别验证码

相关文章