【爬虫】爬取电影封面思路

2023-08-18 22:06:59

前言：上篇博客我爬取了“最近上映的电影”的影评的做了打印处理和统计词频数据处理并绘制词云，那么我想在爬取一下这些电影的封面

前言：上篇博客我爬取了“最近上映的电影”的影评的做了打印处理和统计词频数据处理并绘制词云，那么我想在爬取一下这些电影的封面

1、基本目标

2、思路

1、首先一些基本反爬措施：

2、如何得到直接链接？

3、保存到本地

4、main

3、效果

【爬虫】爬取影评并根据词频制作词云思路_Fx_2003的博客-CSDN博客

【爬虫】图片爬取思路_Fx_2003的博客-CSDN博客

1、基本目标

爬取最近上映电影的封面

2、思路

首先分析网页的结构找到图片的直接地址链接，并通过之前的博客“图片爬取思路”来保存到本地

1、首先一些基本反爬措施：

headers = {'User-Agent': 'Mozilla/5.0 xxxxxx','Cookie': 'your Cookie xxxxxxx'
}

2、如何得到直接链接？

我定义了下面这个函数来获取：

先看代码：

def getSrc():url = "https://xxxxxxxxxx.com"req = requests.get(url, headers=headers).content.decode("utf-8")# print(req)soup = BeautifulSoup(req, 'html.parser')nowplaying = soup.find('div', id='nowplaying')movie_list = nowplaying.find_all('img')# print(movie_list)imgDics = []for imgUrl in movie_list:imgDic = {'alt': imgUrl['alt'], 'src': imgUrl['src']}print(imgDic)imgDics.append(imgDic)return imgDics# print(imgDics)

再看网页结构，在要爬取的网页按F12

我们要爬取的“最近上映的”都在，id="nowplaying"下。所以

nowplaying = soup.find('div', id='nowplaying') #这样获取到nowplaying里的所有

而图片链接都在 img标签下的src中，所以我们先获取到img标签：

movie_list = nowplaying.find_all('img')

img标签下有alt,src,前者是电影名字，后者是链接，我们把每一个图片的信息用字典存放，所有的图片字典用一个列表存放

3、保存到本地

这里我给了两种方法（这个在博客”图片爬取思路“也有说)

第一种用的with open来写入二进制信息，文件名用alt下的电影名字来保存
第二种用

from PIL import Image

from io import BytesIO

来获取

第一种

def save_image1():dics = getSrc()for each in dics:filename = r"H:/Project/PPython/ProjectQI/影评/img/{}.jpg".format(each['alt'])req = requests.get(each['src'], headers=headers).contentwith open(filename, "wb") as f:print(each['src'])f.write(req)print(filename)print('下载成功--{}'.format(each['alt']))

第二种

def save_image2():dics = getSrc()for each in dics:filename = r"H:/Project/PPython/ProjectQI/影评/img/{}.jpg".format(each['alt'])req = requests.get(each['src'], headers=headers).contenta = Image.open(BytesIO(req))a.save(r'H:/Project/PPython/ProjectQI/影评/img2/{}.jpg'.format(each['alt']))

4、main

if __name__ == '__main__':# url = input("输入网页图片直接地址")  # name = input("请输入您要保存图片的名字:")save_image2()print("下载完成!")# print(getSrc())

3、效果

在保存的地址上查看图片

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 瓶水有毒问题
下一篇 > Unity3d 使用DX11的曲面细分

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

【爬虫】爬取电影封面思路

前言：上篇博客我爬取了“最近上映的电影”的影评的做了打印处理和统计词频数据处理并绘制词云，那么我想在爬取一下这些电影的封面

1、基本目标

2、思路

1、首先一些基本反爬措施：

2、如何得到直接链接？

3、保存到本地

4、main

3、效果

相关文章