【Python项目实战】爬取微博Top10热搜（保姆级教程）

2023-10-05 19:49:54

文章目录

- 一、前言
- 二、项目介绍
- 三、代码编写
- - 1. 调用所需要的库文件
  - - （1）所需要的库及其作用
    - （2）代码编写
  - 2. 伪装用户，获取网页响应
  - - （1）解读
    - （2）代码编写
  - 3. 制定爬取规则
  - - （1）解读
    - （2）代码编写
  - 4. 解析源码，获取所需数据
  - - （1）解读
    - （2）代码编写
  - 5. 建立Excel表格
  - - （1）解读
    - （2）代码编写
  - 6. 保存数据到Excel表格
  - - （1）解读
    - （2）代码编写
  - 7. 创建数据库
  - - （1）解读
    - （2）代码编写
  - 8. 保存数据到数据库
  - - （1）解读
    - （2）代码编写
  - 9. 主函数
  - - （1）解读
    - （2）代码编写
  - 10. if __name__ == "__main__"
- 三、完整代码
- - 1. 解读
  - 2. 完整代码
- 四、结果展示
- - 1. 程序运行
  - 2. Excel表
  - 3. 数据库
- 五、结言

一、前言

回顾2020年，我最大的学习收获莫过于Python。年初时，我还是一个小白，通过观看各大出版社有关于Python的书籍、各类网课以及各大blog网站入门，一路可谓艰辛。如今一眨眼已是年末，在此向大家分享我学习爬虫后的一个小创作、小实战，希望能对各位同样在学习Python语言的朋友们有所帮助。

二、项目介绍

项目步骤
① 实时爬取微博热搜前十标题
② 把爬取到的数据保存在数据库中，同时加上爬取时间（年 - 月- 日 - 时:分）
③ 在本地创建一个Excel表格
④ 把爬取到的数据保存在所创建的Excel表格当中，同时加上爬取时间（年 - 月- 日 - 时:分）

三、代码编写

1. 调用所需要的库文件

（1）所需要的库及其作用

库	作用
request	获取指定网页响应
xlwt	写入Excel数据
xlwd	读取Excel数据
re	正则表达式，用于文字匹配
time	获取时间
sqlite3	进行一系列的数据库操作
BeautifulSoup	网页解析，获取数据
copy	复制文件，使得先后不同时间获取到的数据都保存在同一文档

（2）代码编写

import urllib.request
import xlwt, xlrd, re, time, sqlite3
from bs4 import BeautifulSoup
from xlutils.copy import copy

2. 伪装用户，获取网页响应

（1）解读

本步骤是让网页无法发现我们是通过Python去爬取，假装是正常访问

（2）代码编写

# askURL伪装+获取网页响应
def askURL(url):# 伪装header = {"User-Agent": "此处粘贴用户浏览器的User-Agent对应值"}request = urllib.request.Request(url, headers=header)response = urllib.request.urlopen(request)html = response.read().decode("utf-8")return html

3. 制定爬取规则

（1）解读

爬取规则的制定是根据观察网页的源码所得到的
制定爬取规则的用途是告诉程序你要爬取哪一部分的内容，供给 re 模块调用

（2）代码编写

# 爬取内容规则
findTexts1 = re.compile(r'(.*?)', re.S)
findTexts2 = re.compile(r'(.*?)', re.S)

4. 解析源码，获取所需数据

（1）解读

解析源码后，通过制定的爬取规则获取所需数据，保存在一个列表当中

（2）代码编写

def getData(baseurl):# 解析源码html = askURL(baseurl)soup = BeautifulSoup(html, "html.parser")data = []item = soup.find_all('td')   # item = str(item)texts = re.findall(findTexts1, item)texts = str(texts)texts

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 微博热搜榜、热点、帖子、评论爬虫---Scrapy框架、Selenium
下一篇 > linux Centos 更换阿里云 yum源

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

【Python项目实战】爬取微博Top10热搜（保姆级教程）

文章目录

一、前言

二、项目介绍

三、代码编写

1. 调用所需要的库文件

（1）所需要的库及其作用

（2）代码编写

2. 伪装用户，获取网页响应

（1）解读

（2）代码编写

3. 制定爬取规则

（1）解读

（2）代码编写

4. 解析源码，获取所需数据

（1）解读

（2）代码编写

相关文章