自动下载指定关键词的高清图片

2023-08-28 22:38:08

爬虫自动下载指定分类图片

1.起源
2.规律查找
3.代码逻辑
4.部分代码实现
- 4.1 原始网页内容读取
- 4.2 根据搜寻条件提取出符合要求的字典类型
- 4.3 获取图片的URL
5.结果
6.完整的代码

1.起源

最近迷上二次元高清图片，一直在网上寻找，发现一个可以下载高清图片的网站，但奈何需要手动一张张的去点击下载，非常的不便捷，以上突发奇想，能否写个爬虫自动下载呢？

2.规律查找

检索内容规律。通过手动对源代码审查，发现该网站(网站名就不写出来了，以防被封)对检索的内容是先给出一个列表结果，点击列表内的内容后才会跳转到具体的图片详情中。且全文就此处用了class="i_list list_n1"这个类别，故可以根据类别名取出对应的href 和其对应的title,

2.对进入特定的URL后，发现其高清图片得url都存储在class="content_left"的img标签里面的src属性里面，

3.代码逻辑

现在代码的逻辑很清晰，主要分为如下5步；
1.对URL内容进行读取
2.从获取的内容中，过滤出符合要求的内容，保存为{目录：URL}字典类型
3.根据第二步中保存的URL，查找出符合要求的图片URL，并保存为{目录：[图片URL]}字典类型
4.根据目录名，在指定位置处创建目录
5.将对应图片

4.部分代码实现

4.1 原始网页内容读取

 def get_html(self, url, keyword=None):'爬取制定网页的内容，并返回二进制内容'if keyword == None:url =urlelse:url =url +"/?s=" + str(keyword)header = {"Accept - Language": "zh-CN,zh;q=0.9","User - Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 86.0.4240.75 Safari / 537.36",}res = requests.get(url=url, headers=header)return res.content

4.2 根据搜寻条件提取出符合要求的字典类型

     def get_file_dir(self, html):'特定网页解析，找寻符合要求的搜寻结果分类，并返回目录：URL的字典类型格式'bs = BeautifulSoup(html, "html.parser")infor_list = bs.findAll(name="li", attrs={"class": "i_list list_n1"})infor = {}if len(infor_list) == 0:print("no get infor")else:#print(len(infor_list))

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce