全国首富排行居然有他？用Python采集全国富豪榜五百名！

2023-08-18 18:59:13

前言

背景

今天刷到一则文章，就是国内某富豪花重金迎娶泰国某**皇后！

在这里插入图片描述

可谓是有点颠覆了我的三观啊。有钱人都玩的这么花的吗？这里内容就不一一讲了，毕竟看咱文章的都是想来学技术的！那就废话不多说，开始干活！

正文

相关模块

今天不用其他的什么模块

python3.8

pycharm

一个用来进行数据可视化的模块

jupyter notebook

这里重点

由于很多观看文章的小伙伴都是新手，可能对爬虫不是很了解，所以这里多讲一点！

爬虫知识点: requests简单使用 get方法获取数据 re模块简单使用 .*? csv 保存数据基础知识点: 数据类型转换 --> json字典数据列表取值字典创建/取值 for循环遍历 print输出函数 pprint格式化输出模块的使用函数关键字传参

这样就对怎么去爬取数据能有个清晰的认知了吧

干货

由于爬取的内容网站非常的简单，这个应该学了两天爬虫的都会！主要还是看咱们的代码，跟着代码来应该就能搞定它了，对了，后面还有个数据可视化！思路都一样，这里也偷个小懒，嘿嘿，就不过多的讲解今天的思路了！如果实在有不会的，我也录了视频！又想看的可以到下方小卡片找我

在这里插入图片描述

【----帮助Python学习，以下所有学习资料文末免费领！----】

排名第一的是不是你所始料未及的！居然是咱们经常喝的农夫山泉！

完整代码

"""
# 导入数据数据请求模块
import requests
# 导入正则模块
import re
# 导入json
import json
# 导入格式化输出模块
from pprint import pprint
# 导入csv模块
import csv# 创建文件 open函数
f = open('data.csv', mode='a', encoding='utf-8', newline='')
# 配置f文件对象 fieldnames 字段名 表头
csv_writer = csv.DictWriter(f, fieldnames=['姓名','财富(亿元)','主要公司','相关行业','公司总部','性别','年龄',
])
# 写入表头
csv_writer.writeheader()
"""
1. 发送请求, 模拟浏览器对于url地址发送请求- 请求链接 找到之后直接复制- 模拟浏览器 <防止反爬>headers 请求头 --> 复制I. 字典数据类型 <构建完整键值对> - 发送请求 <请求方式方法>get --> 开发者工具显示 请求方法GET
想要本节课代码吗? 你想要本节课录播吗?课堂多发言 多互动 --> 课后给可以发给你 响应对象 表示请求成功多页数据采集:分析请求url地址变化规律根据变化规律, 构建每一页请求链接
"""
for page in range(1, 35):# 请求链接url = f'https://service.ikuyu.cn/XinCaiFu2/pcremoting/bdListAction.do?method=getPage&callback=jsonpCallback&sortBy=&order=&type=4&keyword=&pageSize=15&year=2022&pageNo={page}&from=jsonp&_=1680086650173'# 模拟浏览器headers = {# User-Agent 用户代理, 表示浏览器基本身份信息'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'}# 发送请求response = requests.get(url=url, headers=headers)"""2. 获取数据, 获取服务器返回响应数据知识点:- response.text 和 response.json() 区别- 正则表达式提取数据正则表达返回列表数据, [0] 提取列表索引位置为0的元素, 也就是提取第一个元素- 列表索引取值- json模块的使用3. 解析数据, 提取我们想要的数据内容字典取值print(index) # 打印字典数据 返回一行pprint(index) # 打印字典数据 返回多行.*? --> 通配符 可以匹配任意字符 (除了\n换行符以外)"""# 正则匹配数据html_data = re.findall('jsonpCallback\((.*?)\)', response.text)[0]# 转换数据类型json_data = json.loads(html_data)# for循环遍历, 提取列表元素for index in json_data['data']['rows']:# 创建字典 --> 字典取值dit = {'姓名': index['name'],'财富(亿元)': index['assets'],'主要公司': index['company'],'相关行业': index['industry'],'公司总部': index['addr'],'性别': index['sex'],'年龄': index['age'],}# 写入数据csv_writer.writerow(dit)print(dit)

效果展示

在这里插入图片描述

这就是咱们爬下来的数据了！

在这里插入图片描述

数据可视化

在这里插入图片描述

所以说学好爬虫，对于需要做统计表或者文员来讲实在是太方便了，几行代码就自动形成统计图，一目了然，老板看了直说好！

读者福利：知道你可能对Python感兴趣，便准备了这套python学习资料

对于0基础小白入门：

如果你是零基础小白，想快速入门Python是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以找到适合自己的学习方案

包括：Python激活码+安装包、Python web开发，Python爬虫，Python数据分析，人工智能、机器学习等学习教程。带你从零基础系统性的学好Python！

零基础Python学习资源介绍

👉Python学习路线汇总👈

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。（全套教程文末领取哈）

在这里插入图片描述

入门学习视频

👉实战案例👈

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉100道Python练习题👈

检查学习结果。

👉面试刷题👈

在这里插入图片描述

资料领取

上述这份完整版的Python全套学习资料已经上传CSDN官方，朋友们如果需要可以微信扫描下方CSDN官方认证二维码输入“领取资料” 即可领取

在这里插入图片描述

好文推荐

了解python的前景：https://blog.csdn.net/xiqng17111342931/article/details/127705925

了解python的副业：https://blog.csdn.net/xiqng17111342931/article/details/127872402

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > python为什么长期霸占榜首
下一篇 > [转载] 七龙珠第一部——第074话神秘的男人

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

全国首富排行居然有他？用Python采集全国富豪榜五百名！

前言

背景

正文

这里重点

爬虫知识点: requests简单使用 get方法 获取数据 re模块简单使用 .*? csv 保存数据 基础知识点: 数据类型转换 --> json字典数据 列表取值 字典创建/取值 for循环遍历 print输出函数 pprint格式化输出模块的使用 函数关键字传参

干货

效果展示

零基础Python学习资源介绍

👉Python学习路线汇总👈

入门学习视频

👉实战案例👈

👉100道Python练习题👈

👉面试刷题👈

资料领取

好文推荐

相关文章

爬虫知识点: requests简单使用 get方法获取数据 re模块简单使用 .*? csv 保存数据基础知识点: 数据类型转换 --> json字典数据列表取值字典创建/取值 for循环遍历 print输出函数 pprint格式化输出模块的使用函数关键字传参