selenium自动化获取起点排行榜

2023-11-24 06:06:03

import re
import openpyxl
import requests
from selenium import webdriver
from selenium.webdriver.common.by import By
from lxml import etree
from html import unescape# 获取HTML源码，普通方式无法抓取到源码，所以需要使用代理访问后在提取内容
def getHtml(url):try:# 用户代理headers = {'User_Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}# 获取请求对象r = requests.get(url, timeout=5, headers=headers)r.raise_for_status()# 返回页面内容return r.textexcept Exception as e:print(e.__traceback__)# 解析内容
def getInfo(text):# 获取xpath解析对象e = etree.HTML(text)html = etree.tostring(e, encoding="utf-8").decode("utf-8") # 防止中文类似中国的乱码。# print(html)# 品类一 (# 传说，在那古老的星空深处，伫立着一道血与火侵染的红色之门。传奇与神话，黑暗与光明，无尽传说皆在这古老的门户中流淌。# 俯瞰星门，热血照耀天地，黑暗终将离去！《星门》漫画11月18日上线！！！对漫画感兴趣的朋友可以去看看。…" > )nofollow = e.xpath('//meta[@name="description"]')nofollow = etree.tostring(nofollow[0], encoding="utf-8").decode("utf-8")nofollow = re.findall('创作的(.+?)小说', unescape(nofollow))print(nofollow)# 品类二 ()category = e.xpath('//meta[@property="og:novel:category"]')category = etree.tostring(category[0], encoding="utf-8").decode("utf-8")category = re.findall('content="(.+?)"/>', unescape(category))print(category)# 书名 （）title = e.xpath('//meta[@property="og:title"]')title = etree.tostring(title[0], encoding="utf-8").decode("utf-8")title = re.findall('content="(.+?)"/>', unescape(title))print(title)# 作者 ()author = e.xpath('//meta[@property="og:novel:author"]')author = etree.tostring(author[0], encoding="utf-8").decode("utf-8")author = re.findall('content="(.+?)"/>', unescape(author))print(author)# 状态 ()status = e.xpath('//meta[@property="og:novel:status"]')status = etree.tostring(status[0], encoding="utf-8").decode("utf-8")status = re.findall('content="(.+?)"/>', unescape(status))print(status)# 字数 (647.82万 ……
)count = e.xpath('//p[@class="count"]/em[1]/text()')print(count)# 简介 (  传说，在那古老的星空深处，伫立着一道血与火侵染的红色之门。
)intro = e.xpath('//p[@id="book-intro-detail"]/text()')intro = "".join(intro)intro = [intro]print(intro)return zip(nofollow, category, title, author, status, count, intro)# 保存数据
def save(info, text, y, data, ws):# 排名信息for nofollow, category, title, author, status, count, intro in data:ws.append([info, text, nofollow, category, title, author, status, count, intro])if __name__ == '__main__':# 创建excel文件# 获取工作簿wb = openpyxl.Workbook()# 获取工作表ws = wb.active# 设置工作表名ws.title = '起点中文网月票榜'# 设置表头ws.append(['标题', "链接", '品类一', '品类二', '书名', '作者', '状态', '字数', '简介'])# 共5页for x in range(10, 13):for y in range(1, 4):for z in range(1, 21):if y == 3 and z > 10:continueurl = "https://www.qidian.com/rank/yuepiao/year2022/"options = webdriver.ChromeOptions()options.add_argument("disable-blink-features=AutomationControlled")browser = webdriver.Chrome(options=options)# browser = webdriver.Chrome()  # 初始化浏览器为chrome浏览器browser.maximize_window()  # 设置全屏browser.get(url)  # 访问网页text = getHtml(browser)print(text)# print(browser.page_source)# 选择第几月browser.find_element(by=By.ID, value='month').click()months = browser.find_elements(by=By.CLASS_NAME, value='lbf-combobox-item')months[-x].click()  # 这里4是12月， 5是11月，6是10月, -x刚好从1到12print(len(months))# 选择第几页pagepagination = browser.find_elements(by=By.CLASS_NAME, value='lbf-pagination-page  ')print(len(pagination))pagination[y - 1].click()# 选择第几项element = browser.find_elements(by=By.CLASS_NAME, value='book-img-box')print(len(element))element[z-1].click()browser.switch_to.window(browser.window_handles[1])  # 切换当前页面标签currentPageUrl = browser.current_urlprint(currentPageUrl)text = getHtml(currentPageUrl)data = getInfo(text)save("year2022-month" + str(x) + "-page" + str(y) + "-option" + str((y - 1) * 20 + z), currentPageUrl, y, data, ws)# 保存wb.save('qidian.xlsx')browser.close()

在这里插入图片描述

参考：【爬虫实战】起点中文网排行榜（XPath）

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 系列:iOS开发-网络请求
下一篇 > 【字体反爬】的起点，月票数解析，一个小小的Python案例

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

selenium自动化获取起点排行榜

相关文章