自动下载指定关键词的高清图片

爬虫自动下载指定分类图片

  • 1.起源
  • 2.规律查找
  • 3.代码逻辑
  • 4.部分代码实现
    • 4.1 原始网页内容读取
    • 4.2 根据搜寻条件提取出符合要求的字典类型
    • 4.3 获取图片的URL
  • 5.结果
  • 6.完整的代码

1.起源

最近迷上二次元高清图片,一直在网上寻找,发现一个可以下载高清图片的网站,但奈何需要手动一张张的去点击下载,非常的不便捷,以上突发奇想,能否写个爬虫自动下载呢?

2.规律查找

  1. 检索内容规律。通过手动对源代码审查,发现该网站(网站名就不写出来了,以防被封)对检索的内容是先给出一个列表结果,点击列表内的内容后才会跳转到具体的图片详情中。且全文就此处用了class="i_list list_n1"这个类别,故可以根据类别名取出对应的href 和其对应的title,
    在这里插入图片描述
    2.对进入特定的URL后,发现其高清图片得url都存储在class="content_left"的img标签里面的src属性里面,
    在这里插入图片描述

3.代码逻辑

现在代码的逻辑很清晰,主要分为如下5步;
1.对URL内容进行读取
2.从获取的内容中,过滤出符合要求的内容,保存为{目录:URL}字典类型
3.根据第二步中保存的URL,查找出符合要求的图片URL,并保存为{目录:[图片URL]}字典类型
4.根据目录名,在指定位置处创建目录
5.将对应图片

4.部分代码实现

4.1 原始网页内容读取

 def get_html(self, url, keyword=None):'爬取制定网页的内容,并返回二进制内容'if keyword == None:url =urlelse:url =url +"/?s=" + str(keyword)header = {"Accept - Language": "zh-CN,zh;q=0.9","User - Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 86.0.4240.75 Safari / 537.36",}res = requests.get(url=url, headers=header)return res.content

4.2 根据搜寻条件提取出符合要求的字典类型

     def get_file_dir(self, html):'特定网页解析,找寻符合要求的搜寻结果分类,并返回目录:URL的字典类型格式'bs = BeautifulSoup(html, "html.parser")infor_list = bs.findAll(name="li", attrs={"class": "i_list list_n1"})infor = {}if len(infor_list) == 0:print("no get infor")else:#print(len(infor_list))


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部