【千锋Python2205班10.18笔记-day02-requests和bs4-（一阶段）】

2023-08-25 17:41:56

#01-review

1.什么是爬虫

##2.爬虫的工作

1）获取网页数据(requests、selenium) -

反爬

2）解析数据(正则、bs4(css选择器)、lxml(xpath))

3）保存数据(csv)

3.网页开发（html、css、js）

css选择器：
元素选择器
id选择器
class选择器
后代选择器

02-用正则解析贝壳租房

import requests
from re import findallresponse = requests.get('https://cd.zu.ke.com/zufang')print(response.text)
names = findall(r', response.text)
prices = findall(r'(\d+) 元/月', response.text)
areas = findall(r'\s*(\d+\.\d+)㎡\s*', response.text)result = map(lambda i1, i2, i3: {'name': i1, 'price': i2, 'area': i3}, names, prices, areas)
print(list(result))

03-requests使用详解

import requests

1.发送请求

requests.get(请求地址) -

直接获取请求地址对应的数据(请求对象没有要求是浏览器的时候)

requests.get(请求地址, headers=请求头) -

直接获取请求地址对应的数据,并且通过请求头完成浏览器伪装

headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36' }response = requests.get('https://movie.douban.com/top250', headers=headers)

2.获取请求结果

1）直接打印响应对象，如果状态码不是200表示请求失败

print(response) # 、

2）获取状态码

print(response.status_code)

3）设置编码方式(在请求结果中有乱码的时候设置, 设置成网页源代码中charset的值)

response.encoding = 'utf-8'

4) 获取响应头(可以查看服务器信息和返回的数据相关信息)

print(response.headers)

5)获取请求结果(获取从服务器中返回的数据)

a.方式1：响应对象.text -

以字符串的方式获取到数据（请求对象是网页）

print(response.text)

b.方式2：响应对象.content -

以二进制的方式获取数据(请求对象是二进制数据，比如：下载图片、下载音视频等)

print(response.content)

c.方式3：响应对象.json() -

对请求结果进行json解析返回结果(请求对象是json接口)

print(response.json())

04-请求的三种情况

import requests

1.爬网页数据 -

请求地址是网址

response = requests.get('https://cd.zu.ke.com/zufang')if response.status_code == 200:# 通过text获取请求结果，然后再进一步解析print(response.text)

2.下载图片、视频、音频 -

请求地址是图片地址、视频地址、音频地址

1）对图片地址发送请求

response = requests.get('https://img2.baidu.com/it/u=2091427528,3084959670&fm=253&fmt=auto&app=120&f=JPEG?w=1280&h=800')

2）在请求成功的时候将得到的图片数据写入到文件中

if response.status_code == 200:f = open('files/犬夜叉.jpeg', 'wb')f.write(response.content)f.close()

3.练习：

下载贝壳租房首页所有房屋的效果图下载下来

from re import findall

1）直接对网页发送请求获取所有的图片地址

response = requests.get('https://cd.zu.ke.com/zufang')if response.status_code == 200:all_image_url = findall(r'data-src="(.+)"\s+class="lazyload">', response.text)

2）遍历得到每张需要下载的图片地址，发送请求保存数据

count = 0for x in all_image_url:img_response = requests.get(x)f = open(f'files/{count}.jpeg', 'wb')count += 1f.write(img_response.content)f.close()

4.对json数据接口发送请求

response = requests.get('http://api.tianapi.com/auto/index?key=c9d408fefd8ed4081a9079d0d6165d43&num=10')result = response.json()for x in result['newslist']:print(x['title'])

05-json数据

1. 什么是json

json是一种通用的数据格式(为了让不同编程语言的程序之间可以进行有效的数据交流而存在的)

json数据格式：一个json有且只有一个数据，并且唯一的这个数是json支持的数据类型的数据。

json支持的数据类型：

1）数字 -

像数学的数字一样，直接表示：89、-2.3、0.45、3e5

2）字符串 -

必须使用双引号引起来：“abc”、“你好”、“abc\n123”、“\u4e00”

3）布尔 -

true和false

4）数组 -

就是python的列表: [10, 20, true, “abc”]

5）字典 -

json中字典的键必须是字符串：{“name”: “小明”, “age”: 18}

6）空值 -

null

2.json和python的相互转换

from json import loads, dumps

1）json转Python -

loads

# loads(json格式字符串) - 将json数据转换成对应的python数据# 注意：json格式字符串指的是字符串内容是json数据的字符串# "abc"result = loads('"abc"') # 'abc' print(result, type(result))result = loads('[10, 20, "你好", true, null]') print(result) # [10, 20, '你好', True, None]

2)python转json

# dumps(python数据) - 将python数据转换成对应的json格式字符串dumps('abc') # '"abc"' dumps(10) # '10' dumps([10, 'abc', None, False]) # '[10, "abc", null, false]' dumps({'a': 10, 10: 20, 'c': 'd'}) # '{"a": 10, "10": 20, "c": "d"}'

06-bs4网页数据解析

import requests

使用bs4安装第三方库的时候安装的是：beautifulsoup4

from bs4 import BeautifulSoup

1.基于网页源代码创建BeautifulSoup对象

# BeautifulSoup(网页源代码, 'lxml')html = open('data.html').read() soup = BeautifulSoup(html, 'lxml')

2.基于css选择器解析数据：获取标签 -> 获取标签内容和标签属性

1)获取标签

# BeautifulSoup对象.select(css选择器) - 获取整个网页中css选择器选中的所有标签；返回一个列表，列表中元素是标签对象# BeautifulSoup对象.select_one(css选择器) - 获取整个网页中css选择器选中的第一个标签；返回一个标签对象# 标签对象.select(css选择器) - 获取指定标签中css选择器选中的所有标签# 标签对象.select_one(css选择器) - 获取指定标签中css选择器选中的第一个标签result = soup.select('p') print(result)result = soup.select('.c1') print(result)result = soup.select('#p1') print(result)result = soup.select('div>p') print(result)result = soup.select('div p') print(result)result = soup.select_one('p') print(result)print('------------------------------------------华丽的分割线------------------------------------------------') div = soup.select_one('div') result = div.select('p') print(result)span = soup.select_one('#s1') result = span.select('p') print(result)

2）获取标签内容和标签属性

# 标签对象.text - 获取标签内容# 标签对象.attrs[属性名] - 获取指定标签中指定属性的值a = soup.select_one('div>div>a') print(a, a.text)img = soup.select_one('img') print(img, img.attrs['alt'], img.attrs['src'])

07-bs4解析豆瓣电影

import requests from bs4 import BeautifulSoup

1. 获取网页数据

headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36' } response = requests.get('https://movie.douban.com/top250', headers=headers) html = response.text

2. 解析数据

soup = BeautifulSoup(html, 'lxml')div_list = soup.select('.grid_view>li>.item') print(div_list)for div in div_list:title = div.select_one('.title').textcomment = div.select('.star>span')[-1].textscore = div.select_one('.star>.rating_num').textprint(title, comment, score)

data.html

DOCTYPE html> <html lang="en"> <head><meta charset="UTF-8"><title>Titletitle> head> <body><p class="c1">我是段落1p><a href="">我是超链接1a><div><a href="" class="c1 c2">我是超链接2a><span>我是span1span><div><p class="c2">我是段落2p><span id="s1"><p id="p1">我是段落3p>span><a href="">第1名a><img src="https://img2.doubanio.com/view/photo/s_ratio_poster/public/p480747492.webp" alt="肖生克的救赎">div>div>body> html>

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

收藏

标签：技术

上一篇 > java jquery ajax视频,【Ajax】之jQuery中的Ajax

下一篇 > 前端框架Layui学习二：面板、布局、徽章、时间线、颜色选择器

相关文章

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

【千锋Python2205班10.18笔记-day02-requests和bs4-（一阶段）】

1.什么是爬虫

1）获取网页数据(requests、selenium) -

2）解析数据(正则、bs4(css选择器)、lxml(xpath))

3）保存数据(csv)

3.网页开发（html、css、js）

02-用正则解析贝壳租房

03-requests使用详解

1.发送请求

2.获取请求结果

1）直接打印响应对象，如果状态码不是200表示请求失败

2）获取状态码

3）设置编码方式(在请求结果中有乱码的时候设置, 设置成网页源代码中charset的值)

4) 获取响应头(可以查看服务器信息和返回的数据相关信息)

5)获取请求结果(获取从服务器中返回的数据)

a.方式1： 响应对象.text -

b.方式2：响应对象.content -

c.方式3：响应对象.json() -

04-请求的三种情况

1.爬网页数据 -

2.下载图片、视频、音频 -

1）对图片地址发送请求

2）在请求成功的时候将得到的图片数据写入到文件中

3.练习：

1）直接对网页发送请求获取所有的图片地址

2）遍历得到每张需要下载的图片地址，发送请求保存数据

4.对json数据接口发送请求

05-json数据

1. 什么是json

1）数字 -

2）字符串 -

3）布尔 -

4）数组 -

5）字典 -

6）空值 -

2.json和python的相互转换

1）json转Python -

2)python转json

06-bs4网页数据解析

1.基于网页源代码创建BeautifulSoup对象

2.基于css选择器解析数据：获取标签 -> 获取标签内容和标签属性

1)获取标签

2）获取标签内容和标签属性

07-bs4解析豆瓣电影

1. 获取网页数据

2. 解析数据

相关文章

a.方式1：响应对象.text -