软科大学排名爬取（可运行） Python网络爬虫与信息提取（北京理工大学—嵩天）

2023-08-29 14:35:54

先贴代码

import requests
from bs4 import BeautifulSoup
import bs4def getHTMLText(url):try:r = requests.get(url,timeout = 30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return""def fillUnivList(ulist,html):soup = BeautifulSoup(html,"html.parser")for tr in soup.find('tbody').children:#find('tbody')函数,搜索name=‘tbody’的标签,只返回一个结果,即tbody标签(Tag类型的对象)#....children得到tbody的所有子标签的迭代类型if isinstance(tr,bs4.element.Tag):#如果子标签的类型不是Tag类型,就去掉a = tr('a')#以列表类型返回所有的‘a’标签tds = tr('td')#以列表类型返回所有的‘td’标签,其中第一个td标签包含排名信息,第五个td标签包含分数信息ulist.append([tds[0].string.strip(), a[0].string.strip(), tds[4].string.strip()])#td标签的string属性里存有所需信息,strip()函数跳过字符串里的空格def printUnivList(ulist1,num):#num表示要将列表中的多少个学校信息打印出来tplt = "{0:^10}\t{1:{3}^12}\t{2:^10}"# 0、1、2作用为“排名","学校名称","总分"三个字符串分别放在第0，1，2位,'^'表示字符串位置居中#{3}表示若宽度不够,使用format的3号位置处的chr(12288)(中文空格)进行填充,避免分数对不齐的情况发生print(tplt.format("排名","学校名称","总分",chr(12288)))for i in range(num):u = ulist1[i]print(tplt.format(u[0], u[1], u[2],chr(12288)))def main():uinfo = [] #将大学信息放到列表中url = "https://www.shanghairanking.cn/rankings/bcur/2020"html = getHTMLText(url)fillUnivList(uinfo,html)printUnivList(uinfo,30)#因为只读取了第一页的url链接,所以最多只能读取30个学校(ps:换到第二页url链接没有发生变化,页面源码依然只有前三十个学校...疑惑.jpg)main()

这个程序是我在上课后，收集资料+改写+参考别人代码得到的最终版本，关于代码的解释基本全都放在了注释部分

参考资料：

format函数：(3条消息) Python的format格式化输出_硬曲奇小屋-CSDN博客_python格式化输出format

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > python爬虫，爬取软科大学排名
下一篇 > Python软科中国大学排名

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

软科大学排名爬取（可运行） Python网络爬虫与信息提取（北京理工大学—嵩天）

相关文章