Educode--网页抓取及信息提取

2023-09-22 04:35:17

第1关：利用URL获取超文本文件并保存至本地

实现代码：

# -*- coding: utf-8 -*-

import urllib.request as req

import os

import hashlib

# 国防科技大学本科招生信息网中录取分数网页URL：

url = 'http://www.gotonudt.cn/site/gfkdbkzsxxw/lqfs/index.html' # 录取分数网页URL

def step1():

# 请按下面的注释提示添加代码，完成相应功能

#********** Begin *********#

# 1.将网页内容保存到data

webpage = req.urlopen(url)

data = webpage.read()

# 2.将data以二进制写模式写入以学号命名的 “nudt.txt” 文件：

outfile = open("nudt.txt","wb")

outfile.write(data)

outfile.close()

#********** End **********#

第2关：提取子链接

实现代码：

# -*- coding: utf-8 -*-

import urllib.request as req

# 国防科技大学本科招生信息网中录取分数网页URL：

url = 'http://www.gotonudt.cn/site/gfkdbkzsxxw/lqfs/index.html' # 录取分数网页URL

webpage = req.urlopen(url) # 按照类文件的方式打开网页

data = webpage.read() # 一次性读取网页的所有数据

data = data.decode('utf-8') # 将byte类型的data解码为字符串（否则后面查找就要另外处理了）

def step2():

# 建立空列表urls，来保存子网页的url

urls = []

# 请按下面的注释提示添加代码，完成相应功能

#********** Begin *********#

# 从data中提取2016到2012每一年分数线子网站地址添加到urls列表中

years = [2016, 2015, 2014, 2013,2012]

for year in years:

index = data.find("国防科技大学%s年录取分数统计" %year)

href = data[index-80:index-39] # 根据各个特征串提取url子串

website = 'http://www.gotonudt.cn'

urls.append(website+href)

#********** End **********#

return urls

第3关：网页数据分析

实现代码：

# -*- coding: utf-8 -*-

import urllib.request as req

import re

# 国防科技大学本科招生信息网中2016年录取分数网页URL：

url = 'http://www.gotonudt.cn/site/gfkdbkzsxxw/lqfs/info/2017/717.html'

webpage = req.urlopen(url) # 根据超链访问链接的网页

data = webpage.read() # 读取超链网页数据

data = data.decode('utf-8') # byte类型解码为字符串

# 获取网页中的第一个表格中所有内容：

table = re.findall(r'', data, re.S)

firsttable = table[0] # 取网页中的第一个表格

# 数据清洗，将表中的，\u3000，和空格号去掉

firsttable = firsttable.replace(' ', '')

firsttable = firsttable.replace('\u3000', '')

firsttable = firsttable.replace(' ', '')

def step3():

score = []

# 请按下面的注释提示添加代码，完成相应功能，若要查看详细html代码，可在浏览器中打开url，查看页面源代码。

#********** Begin *********#

# 1.按tr标签对获取表格中所有行，保存在列表rows中：

rows = re.findall(r'', firsttable, re.S)

# 2.迭代rows中的所有元素，获取每一行的td标签内的数据，并把数据组成item列表，将每一个item添加到scorelist列表：

scorelist = []

for row in rows:

items = []

tds = re.findall(r'(.*?)', row, re.S)

for td in tds:

rightindex = td.find('') # 返回-1表示没有找到

leftindex = td[:rightindex].rfind('>')

items.append(td[leftindex+1:rightindex])

scorelist.append(items)

# 3.将由省份，分数组成的7元列表（分数不存在的用\代替）作为元素保存到新列表score中，不要保存多余信息

for record in scorelist[3:]:

record.pop()

score.append(record)

#********** End **********#

return score

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 简历信息提取（一）
下一篇 > 图像分类中的信息提取与特征选择

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

Educode--网页抓取及信息提取

第1关：利用URL获取超文本文件并保存至本地

实现代码：

第2关：提取子链接

实现代码：

第3关：网页数据分析

实现代码：

相关文章