秀,Pandas 一行代码爬取半个月天气预报~

2023-12-08 05:58:39

谈及Pandas的read.xxx系列的函数，大家的第一反应会想到比较常用的pd.read_csv()和pd.read_excel()

但是大多数人估计没用过pd.read_html()这个函数。虽然它低调，但功能非常强大，用于抓取Table表格型数据时，简直是个神器。

是的，这个神器可以用来爬虫！

定义

pd.read_html()这个函数功能强大，无需掌握正则表达式或者xpath等工具，短短的几行代码就可以轻松实现抓取Table表格型网页数据。

原理

一.Table表格型数据网页结构

为了了解Table网页结构，我们看个简单例子。

新浪天气预报

规律：以Table结构展示的表格数据，网页结构长这样：

.....................

pandas请求表格数据原理

基本流程

其实，pd.read_html可以将网页上的表格数据都抓取下来，并以DataFrame的形式装在一个list中返回。

pd.read_html语法及参数

@deprecate_nonkeyword_arguments(version="2.0")
def read_html(io: FilePathOrBuffer,match: str | Pattern = ".+",flavor: str | None = None,header: int | Sequence[int] | None = None,index_col: int | Sequence[int] | None = None,skiprows: int | Sequence[int] | slice | None = None,attrs: dict[str, str] | None = None,parse_dates: bool = False,thousands: str | None = ",",encoding: str | None = None,decimal: str = ".",converters: dict | None = None,na_values=None,keep_default_na: bool = True,displayed_only: bool = True,
) -> list[DataFrame]:

基本语法

io ：接收网址、文件、字符串；
parse_dates：解析日期；
flavor：解析器；
header：标题行；
skiprows：跳过的行；
attrs：属性，比如 attrs = {'id': 'table'}

参数详解

io ：接收网址、文件、字符串；
parse_dates：解析日期；
flavor：解析器；
header：标题行；
skiprows：跳过的行；
attrs：属性，比如 attrs = {'id': 'table'}

数据获取

今天我们要爬取的网站是新浪天气，这是一个含有table表格的网站，我们可以选择pa.read_html()直接进行数据爬取

数据获取结果展示如下：

# 导入所需的库
import pandas as pd
from icecream import ic# 目标网站
url = 'http://weather.sina.com.cn/china/beijingshi/'# 开始爬取网站
pd_data = pd.read_html(url)[1]# 结果展示
ic(pd_data)'''
ic| pd_data:       0     1        2   3     4        5    60    北京  局部多云  西北偏北风 3  4℃    少云  西北偏北风 3  -8℃1    平谷     晴    西北风 3  6℃     晴    西北风 3  -7℃2   门头沟    少云    西北风 3  4℃  局部多云    西北风 3  -8℃3    密云    少云  西北偏北风 2  3℃    少云  西北偏北风 2  -9℃4    房山    少云    西北风 2  5℃     晴    西北风 2  -7℃5    大兴     晴     北风 3  6℃     晴     北风 3  -6℃6   石景山  局部多云  西北偏北风 2  4℃    少云  西北偏北风 2  -7℃7    丰台     晴    西北风 2  4℃    少云    西北风 2  -8℃8    延庆     晴    西北风 3  3℃    少云    西北风 3  -9℃9    昌平    少云    西北风 3  5℃     晴    西北风 3  -8℃10   通州     晴    西北风 2  4℃    少云    西北风 2  -8℃11   怀柔     晴  西北偏北风 3  4℃     晴  西北偏北风 3  -7℃12   顺义     晴    西北风 2  4℃    少云    西北风 2  -8℃13   朝阳     晴    西北风 2  3℃    少云    西北风 2  -9℃14   海淀     晴    西北风 2  4℃    少云    西北风 2  -8℃
'''

注意，并不是所有表格都可以用pd.read_html爬取，有的网站表面上看起来是表格，但在网页源代码中不是table格式，而是list列表格式。

这种表格则不适用read_html爬取，得用其他的方法，比如selenium。

数据存储

pd_data.to_excel('天气预报.xlsx')

最后我们使用pandas方法将数据保存在excel中，也是需要一行代码搞定的。方法如下:

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 使用java程序连接数据库出错
下一篇 > Excel中INDIRECT函数实现多级联表

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

秀,Pandas 一行代码爬取半个月天气预报~

相关文章