Python之网络爬虫---正则表达式

2023-11-24 05:25:18

文章目录

1.网络爬虫概念
2.正则表达式
- 2.1 原子
- 2.2 元字符
- 2.3 模式修正符
- 2.5 正则表达式函数
3. 案例
- 3.1 实例之匹配`.com`和`.cn`网址
- 3.2 实例之匹配电话号码
- 3.3 实战之爬取网址上的QQ号

1.网络爬虫概念

说明：网络爬虫就是从互联网中定向或者不定向的采集信息的一种程序。网络爬虫有很多类型：通用网络爬虫、聚焦网络爬虫等等
应用：
（1）搜索引擎
（2）采集金融数据
（3）采取商品信息
（4）自动过滤广告
（5）采集信息，进行相关数据分析等等

2.正则表达式

说明：要用正则表达式，要导入模块import re

2.1 原子

说明：是正则表达式中最基本的单位，每个正则表达式中至少要包含一个原子，常见的原子有：普通字符作为原子、非打印字符作为原子，通用字符作为原子、原子表四类。
eg：

import re
str = 'Hello123Python!'#1.普通字符作为原子
pat = '123'     #pat为正则表达式
result = re.search(pat, str)
print(result)#2.非打印字符作为原子
#换行符：\n 制表符：\t
pat2 = '\n'
print(re.search(pat2, str))#3.通用字符作为原子
'''
\w  字母、数字、下划线
\W  非字母、数字、下划线
\d  十进制数
\D  非十进制数
\s  空白字符
\S  非空白字符
'''
pat3 = '\w\d\d'
print(re.search(pat3, str))#4.原子表
pat4 = '\w[139]\d'      #[139]表示一个原子表，匹配时从中选一个符合要求的原子，若没有，返回None
print(re.search(pat4, str))#^符号表示非
pat5 = 'l[^alo]'           #表示除了原子表[alo]内的元素外我都可以提取
print(re.search(pat5, str))#结果：

None


None

2.2 元字符

说明：元字符就是正则表达式中具有一些特殊含义的字符。

.表示除换行符以外的任何一个字符
^表示后一个原子处于开始位置
$表示前一个原子处于结束位置
*表示前面的原子接着出现0或1或多次
?表示前面的原子接着出现0或1次
+表示前面的原子接着出现1或多次
{n}表示前面一个原子出现恰好n次（操作时n用具体的数字代替）
{n,}表示前面一个原子出现至少n次
{n, m}表示最少匹配 n 次且最多匹配 m 次
|表示模式选择或，[.com|.cn]表示为.com或.cn,"\da|\db"表示为\da或\db
()表示模式单元，直接提取正则式中的某部分

eg：

    import restr = 'Hello1ooo123Python!'pat = '^He..'     #pat为正则表达式result = re.search(pat, str)print(result)pat2 = '..on!$'     #pat2为正则表达式result = re.search(pat2, str)print(result)pat3 = '1o*'     #pat3为正则表达式result = re.search(pat3, str)print(result)pat4 = 'e.*'     #pat4为正则表达式result = re.search(pat4, str)print(result)pat5 = '1o{4}'     #pat5为正则表达式result = re.search(pat5, str)print(result)pat6 = 'o(\d*?)P'result = re.compile(pat6).findall(str)print(result)#结果：<re.Match object; span=(0, 4), match='Hell'><re.Match object; span=(14, 19), match='thon!'><re.Match object; span=(5, 9), match='1ooo'><re.Match object; span=(1, 19), match='ello1ooo123Python!'>None['123']

2.3 模式修正符

字母I 匹配时忽略大小写
字母S 让.能够匹配换行符
字母M 多行匹配
字母U unicode
字母L 本地化识别匹配

注意：以上字母必须为大写
eg：

import re
str = 'Hello1ooo123Python!'pat = 'hell'     #pat为原子
result = re.search(pat, str, re.I)
print(result)str = '''Hello1ooo
123Python!'''
pat = 'oo.1'     #pat为原子
result = re.search(pat, str, re.S)
print(result)#结果：
<re.Match object; span=(0, 4), match='Hell'>
<re.Match object; span=(7, 11), match='oo\n1'>

（4）贪婪模式与懒惰模式
说明：

贪婪模式就是尽可能多的匹配，语法.*、\d*等等，就是元字符或原子与符号*的组合
懒惰模式就是尽可能少的匹配，语法.*?、\d*?等等，就是元字符或原子与符号*?的组合

eg：

import restr = 'HelloPython!'
pat = 'H.*o'     #贪婪模式
pat2 = 'H.*?o'     #懒惰模式
result = re.search(pat, str)
result2 = re.search(pat2, str)
print(result)
print(result2)#结果：
<re.Match object; span=(0, 10), match='HelloPytho'>
<re.Match object; span=(0, 5), match='Hello'>

2.5 正则表达式函数

re.match()函数，对数据从头开始匹配，结果只有一个
re.search()函数，任意位置匹配，结果只有一个
全局匹配函数，任意位置匹配，结果是一个list，语法：re.compile(正则表达式).findall(数据)
re.sub(正则表达式, 字符串, 数据)函数，任意位置匹配，结果是多个，用指定的字符串代替匹配到的字符串

eg：

import re#match()函数
str = 'HelloPython!'
pat = 'H.*?o'     #懒惰模式
print(re.match(pat, str))
pat = 'h.*?o'    
print(re.match(pat, str))str = 'HelloHsadoHazzzoHo'
pat = 'H.*?o'
print(re.match(pat, str))
#全局匹配函数
result = re.compile(pat).findall(str)
print(result)
#sub()函数
out = re.sub(pat, 'J', str)
print(out)#结果：
<re.Match object; span=(0, 5), match='Hello'>
None
<re.Match object; span=(0, 5), match='Hello'>
['Hello', 'Hsado', 'Hazzzo', 'Ho']
JJJJ

re.sub()函数能替换所有符合要求的正则表达式，下面举一个清洗数据的例子：

import restr = 'abcdefg'
pat = '<.*?>'
data = re.sub(pat, '', str)
print(data)# 结果：
abcdefg

3. 案例

3.1 实例之匹配.com和.cn网址

eg：

import restr = '百度首页' #[a-zA-Z]表示从a到z和A到Z的所有字母 #|为模式选择或 [.com|.cn]表示为.com或.cn pat = '[a-zA-Z]+://[^\s]*[.com|.cn]' print(re.compile(pat).findall(str))#结果： ['http://www.baidu.com']

3.2 实例之匹配电话号码

说明：电话号码有两种

前3位为域名+后8位
前4位为域名+后7位

eg：

import restr = 'dsadasdgs031-1564653233adads2312-24644567dZDxz' pat = '\d{3}-\d{8}|\d{4}-\d{7}' print(re.compile(pat).findall(str))#结果： ['031-15646532', '2312-2464456']

3.3 实战之爬取网址上的QQ号

eg：爬取该网址内的QQ号

#简单爬虫编写,自动爬取上面两个QQ号 import urllib.request import re data = urllib.request.urlopen("https://www.yiibai.com/python3").read().decode("utf-8") #decode()函数是设置读取编码格式 pat = 'QQ群：(\d*)' result = re.compile(pat).findall(data) print(result) #结果： ['227270512', '479429477']#简单爬虫编写,自动爬取该网页所有QQ群 import urllib.request import re data = urllib.request.urlopen("https://www.yiibai.com/python3").read().decode("utf-8") #decode()函数是设置读取编码格式 pat = '[1-9]{6,10}' result = re.compile(pat).findall(data) # 去除重复的QQ号 result = list(set(result)) print('该网站共有'+str(len(result))+'个QQ群：') print(result) # 结果：该网站共有17个QQ群： ['769728683', '65515455', '5798217', '415553199', '1932146371', '6215498', '175248146', '9485766451', '944874', '6494738921', '456236', '816911', '629264796', '153241', '397883996', '479429477', '851549']

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

收藏

标签：技术

上一篇 > 声音高层特征提取

下一篇 > 深度网络简单杂记

相关文章

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

Python之网络爬虫---正则表达式

文章目录

1.网络爬虫概念

2.正则表达式

2.1 原子

2.2 元字符

2.3 模式修正符

2.5 正则表达式函数

3. 案例

3.1 实例之匹配.com和.cn网址

3.2 实例之匹配电话号码

3.3 实战之爬取网址上的QQ号

相关文章

3.1 实例之匹配`.com`和`.cn`网址