selenium爬取4k壁纸，并存入数据库

2023-11-23 11:00:45

使用selenium对彼岸网的4k壁纸进行爬取，为了给node后端写接口提供数据，大佬勿喷

1.用到了selenium的动作链，进行搜索框点击搜索，并且对下一页进行点击
2.用到了pyquery库进行dom解析，pyquery是爬虫解析的利器，用起来简单粗暴，里面的api的使用方法几乎和jQuery一样
3.这里将爬取下来的图片链接还有图片描述保存进了mongodb数据库
4.这里的selenium我用了接管浏览器的方式，避免被反反爬

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
from selenium.webdriver import ActionChains
from pyquery import PyQuery as pq
import time
import pymongo# 接管浏览器
chrome_options = Options()
chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222")bro = webdriver.Chrome(executable_path='D:/pythonProject/Selenium/chromedriver.exe', options=chrome_options)bro.maximize_window()	#全屏dbCol = input('数据库Photos的表名:')myClient = pymongo.MongoClient('mongodb://localhost:27017/')	#链接数据库
mydb = myClient['Photos']	# 链接数据库内的某个文档
mycol = mydb[dbCol]		smallPic = []def search_box(name):# 搜索框搜索内容bro.get('https://pic.netbian.com/')searchBox = bro.find_element_by_xpath('//*[@id="schform"]/p/input')     # 找到搜索框searchBox.send_keys(Keys.CONTROL, 'a')       # 对搜索框进行全选按钮操作searchBox.send_keys(Keys.BACK_SPACE)         # 对搜索框内的内容进行清空searchBox.send_keys(name)       # 输入要搜索的内容time.sleep(2)searchBox.send_keys(Keys.ENTER)      # 对搜索框进行回车操作getPicLink()# 获取原图链接保存起来，后面用于访问得到4k图片的链接
def getPicLink():linkList = []for i in range(40):try:time.sleep(2.5)bro.execute_script("window.scrollTo(0,document.body.scrollHeight)")  # 滚到底部page = bro.page_source  # 得到页面DOMhtml = pq(page, parser='html')  # 解析allADom = html('.slist ul li a').items()  # 得到关于图片信息的所有a链接for a in allADom:src = str(pq(a, parser='html')('img').attr('src'))if src == 'None':passelse :smallLink = 'https://pic.netbian.com' + srclink = 'https://pic.netbian.com' + a.attr('href') + '\n'smallPic.append(smallLink)linkList.append(link)# 以下是用于搜索框爬虫的xpathnext = bro.find_element_by_xpath('//*[@id="main"]/div[3]/a[last()]')  # 找到下一页的元素actions(next)  # 执行相应的点击跳转页面操作# bro.get('https://pic.netbian.com/4kmeinv/index_'+ str(i + 2) +'.html')except:passf = open('piclink.txt', 'w')for lk in linkList:f.write(lk)print(lk, '写入成功')f.close()getPic()def getPic():f = open('piclink.txt', 'r')picLink = f.readlines()     # 读取所有4k的链接picLink = [x.strip() for x in picLink]  # 去除换行符f.close()saveDb(picLink)# 对4k链接进行访问，得到4k图片的真实地址
def saveDb(picLink):db = []id = 1for link in picLink:data = {}try:bro.get(link)page = bro.page_sourcehtml = pq(page, parser='html')text = html('.photo-hd h1').text()img = 'https://pic.netbian.com' + html('.photo-pic #img img').attr('src')data['_id'] = id    # 数据库内置iddata['id'] = iddata['desc'] = textdata['smallPic'] = smallPic[id-1]data['picLink'] = imgdb.append(data)id = id + 1time.sleep(2.5)except:passmycol.insert_many(db)   # 保存进数据库# 动作链相关操作
def actions(dom):action = ActionChains(bro)action.move_to_element(dom).click().perform()action.reset_actions()name = input('Search Something:')
search_box(name)

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > FIR 滤波器去除噪声
下一篇 > 2023 自动采集4K壁纸小程序源码带流量主

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

selenium爬取4k壁纸，并存入数据库

使用selenium对彼岸网的4k壁纸进行爬取，为了给node后端写接口提供数据，大佬勿喷

相关文章