自动化爬取开开贷借贷黑名单（pythonselenium）

2023-08-18 19:54:29

需求

网址：http://www.kaikaidai.com/Lend/Black.aspx

获取每页的10个人的信息（每个人的信息包含8项），总378个名单，每页10个，共38页。
将数据保存在txt，一行包含一个人的八条信息，中间以分号”;”分隔，保存格式为如下：

冯介伦；370724197209050338；山东省潍坊市临朐县冶源镇车家沟村107号；临朐县腾达天然大理石加工厂；临朐县冶源镇红光村南(无门牌号）；lqfengjielun@163.com；05363332678；15065681089

实现方法

使用爬虫利器selenium获取页面每个元素的xpath内容（XPath是路径表达式，可以定位HTML中的元素，并获取元素的内容），最后模拟在页号框输入页码，模拟点击回车跳转指定页面。
获取元素xpath的方法（谷歌浏览器）：
页面选中元素—-右击—-检查—-右击—copy

还有一点需要注意：在获取一页10人信息时，每个人xpath的路径会有联系，需要自己总结。
这里写图片描述

代码实现

# -*- coding:utf-8 -*-
"""
@author:xunalove
date   : 2017-9-8
python :2.7
os :ubuntu 16.04
Browse : Chrome
"""
import unittest
import time
import re
from selenium import webdriver
from selenium.webdriver.common.keys import Keysurl = "http://www.kaikaidai.com/Lend/Black.aspx"
driver = webdriver.Chrome()#打开请求的url
driver.get(url)
f = open("/home/xuna/桌面/img_code/res.txt",'w')
a = 1
m = 1
x = 2
y = 12
while m <=38:elem = driver.find_element_by_name("rpMessage")elem.send_keys(m)elem.send_keys(Keys.RETURN)#模拟点击回车if m == 38:x=2y=10for n in range(x,y):print aname_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[1]/td[3]/a'name = driver.find_element_by_xpath(name_xpath).textid_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[2]/td[2]'id = driver.find_element_by_xpath(id_xpath).textadress_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[3]/td[2]'adress = driver.find_element_by_xpath(adress_xpath).textcompany_name_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[4]/td[2]'company_name = driver.find_element_by_xpath(company_name_xpath).textcompany_adress_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[5]/td[3]'company_adress = driver.find_element_by_xpath(company_adress_xpath).textemail_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[1]/td[5]'email= driver.find_element_by_xpath(email_xpath).textcall_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[2]/td[4]'call = driver.find_element_by_xpath(call_xpath).textphone_xpath = '//*[@id="form1"]/div[3]/div/div[2]/div[4]/table[' + str(n) + ']/tbody/tr[3]/td[4]'phone = driver.find_element_by_xpath(phone_xpath ).texttry:save = name  + ";" + id + ";" + adress + ";" + company_name + ";" + company_adress + ";" + email + ";" + call + ";" + phone + "\n"f.write(save.encode("GB2312"))print saveprint type(save)a = a + 1except:print name,id,company_name,email,call,phonesave = name  + ";" + id + ";" + "**" + ";" + company_name + ";" + "**" + ";" + email + ";" + call + ";" + phone + "\n"f.write(save.encode("GB18030"))print saveprint type(save)a = a + 1m = m + 1driver.close()

数据爬取结果

这里写图片描述

遇到的问题以及解决方法

1.页面的编码是“charset=GB2312”，保存txt中我们使用encode(“GB2312”),但是信息里面有一个人名为“ 王中堃”中的“堃”不在”GB2312”库中，导致编码错误？
解决方法：

将编码"GB2312"改为"GB18030"。

2.地址中会出现“宁津县泉润·福宁壹号”中间点或者出现的“-”会编码错误？

当出现这两类错误时，将地址置为“**”。

代码和结果：
Github :https://github.com/xuna123/Python_pro

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

自动化爬取开开贷借贷黑名单（pythonselenium）

需求

实现方法

代码实现

数据爬取结果

遇到的问题以及解决方法

相关文章