python+selenium统计CSDN博客（下）：统计收藏量

2023-10-05 23:09:17

文章目录

前文提要：通过python+selenium统计CSDN博客（上）：统计阅读量

由于个人主页的摘要信息中，并没有提供收藏数，为了获取收藏数，就得逐一点相应的页面，所以要获取标题对应的链接。

首先还是进入博客主页

from selenium import webdriver
url = 'https://blog.csdn.net/m0_37816922?type=blog'
driver = webdriver.Edge()
driver.get(url)

然后发现链接被存放在一个a标签中

<a data-v-6fe2b6a7="" href="https://blog.csdn.net/m0_37816922/article/details/122035260?spm=1001.2014.3001.5502" target="_blank" data-report-click="{"spm":"3001.5502"}" data-report-query="spm=3001.5502"><div data-v-6fe2b6a7="" class="blog-list-box-top"><h4 data-v-6fe2b6a7="">【C标准库】get和puth4>div> a>

为了获取链接，可以先复制一下这个a标签的完整Xpath，得到

/html/body/div[2]/div/div[1]/div/div/div/div/div/div[2]/div/div[2]/div/div[2]/div/article[1]/a

然后获取所有a标签所对应的链接，需要注意，刚刚获取的xpath仅仅是一篇文章的，所以article后面有一个[1]，在下面的代码中，去掉这个[1]，可以获取当前页面上的所有这个路径下的a标签，然后再提取出a标签中的href就行了

xpath = '/html/body/div[2]/div/div[1]/div/div/div/div/div/div[2]/div/div[2]/div/div[2]/div/article/a'
links = driver.find_elements_by_xpath(xpath)
links = [L.get_attribute('href') for L in links]

若要获取所有文章链接，则需如前文所述不断下拉。

接下来需要打开每一个链接，然后研究一下博客页面，有关博客的信息精简如下

<div class="article-header"><div class="article-title-box"><h1 class="title-article" >【C标准库】stdio.hh1>div><div class="article-info-box"><div class="article-bar-top"><span class="time">2021-12-20 11:46:45span><span class="read-count">6span><a id="blog_detail_zk_collection" class="un-collection" ><span class="name">收藏span><span class="get-collection">span>a>
div>div>div>div>

其中，标题位于h1中的title-article类；阅读量为read-count类的一个span。比较尴尬的是我选的这篇文章竟然没人收藏。不得已打开一个有收藏的文章，发现收藏数被放在一个get-collection的span中，则按照此前的方法不难得到各种信息

infoDict = {"title":'title-article',"time":"time","read":'read-count',"collection":'get-collection'}
getElement = lambda value : driver.find_element_by_class_name(value).text
tmp = {key:getElement(infoDict[key]) for key in infoDict}

从而得到

{'title': '【C标准库】stdio.h', 'time': '2021-12-20 11:46:45', 'read': '6', 'collection': ''}

接下来可以逐一对所有的链接执行此项操作

infos = []
for url in links:driver.get(url)infos.append({key:getElement(infoDict[key]) for key in infoDict})

最后将infos写入csv

import csv
f = open('blogs.csv','w',newline='')
w = csv.writer(f)
for info in infos:w.writerow(list(info.values()))f.close()

然后就得到了所有博文的收藏量

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 一篇博客入门Numpy模块
下一篇 > 【杂谈】设置博客支持LaTeX公式

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

python+selenium统计CSDN博客（下）：统计收藏量

文章目录

相关文章