Pyhton多线程采集图片

2023-11-22 11:40:18

前言

需要大量图片做数据采集是，这个时候就需要用到python获取图片，本篇以python多线程获取图片为例。

一、查看页面元素

查看页面源代码。
在这里插入图片描述

二、请求url查看

通过F12查看请求url。
在这里插入图片描述

tn: resultjson_com
logid: 12339447258259285711
ipn: rj
ct: 201326592
is: 
fp: result
fr: 
word: 动漫图片
queryWord: 动漫图片
cl: 2
lm: -1
ie: utf-8
oe: utf-8
adpicid: 
st: -1
z: 
ic: 
hd: 
latest: 
copyright: 
s: 
se: 
tab: 
width: 
height: 
face: 0
istype: 2
qc: 
nc: 1
expermode: 
nojc: 
isAsync: 
pn: 60
rn: 30
gsm: 3c
1669373933133:

代码实现

# -*- coding: utf-8 -*-
import os
import re
import time
from multiprocessing import Pool
import requests
from multiprocessing.dummy import Pool as ThreadPool  # 线程池def get_image(keyword, page_num, save_dir):# 浏览器伪装header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'}# 请求urlurl = 'https://image.baidu.com/search/acjson?'n = 0;pn = 1  # pn是从第几张图片开始page_num = page_num + 1;for m in range(1, page_num):# 请求参数param = {'tn': 'resultjson_com','ipn': 'rj','ct': 201326592,'is': '','fp': 'result','queryWord': keyword,'cl': 2,'lm': -1,'ie': 'utf-8','oe': 'utf-8','adpicid': '','st': -1,'z': '','ic': '','hd': 1,'latest': '','copyright': '','word': keyword,'s': '','se': '','tab': '','width': '','height': '','face': 0,'istype': 2,'qc': '','nc': '1','fr': '','expermode': '','force': '','cg': '','pn': pn,'rn': '30','gsm': '1e','1669373933133': ' '}request = requests.get(url=url, headers=header, params=param)if request.status_code == 200:print('success.')request.encoding = 'utf-8'html = request.textimage_url_list = re.findall('"thumbURL":"(.*?)",', html, re.S)if not os.path.exists(save_dir):os.makedirs(save_dir)for image_url in image_url_list:image_data = requests.get(url=image_url, headers=header).content# with open(os.path.join(save_dir, "{}_{:06d}.jpg".format("1", n)), 'wb') as fp:#     fp.write(image_data)pool.apply_async(download, args=(n, image_data, save_dir), error_callback=func.err_call_back)n = n + 1pn += 29class Func(object):def __init__(self):# 利用匿名函数模拟一个不可序列化象# 更常见的错误写法是，在这里初始化一个数据库的长链接self.num = lambda: Nonedef work(self, num=None):self.num = numreturn self.num@staticmethoddef call_back(res):print('Hello,World! {res}')@staticmethoddef err_call_back(err):print('出错啦：[{}]'.format(err))def download(n, image_data, save_dir):# time.sleep(1)fp = open(os.path.join(save_dir, "{}_{:06d}.jpg".format("1", n)), 'wb')fp.write(image_data)fp.close()if __name__ == '__main__':func = Func()keyword = '动漫图片'save_dir = keywordpage_num = int(input("页数："))# 线程池中线程数pool = Pool(10)# pool = ThreadPool(5)# i = 0;# while i < page_num:get_image(keyword, page_num, save_dir)# i = i + 1print('完成')

在这里插入图片描述

点赞收藏关注
见善如不及,见不善如探汤。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 网络不通怎么办，如何用Ping排查网络故障
下一篇 > Python爬虫扫盲篇——如何批量采集网站中的图片数据

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

Pyhton多线程采集图片

前言

一、查看页面元素

二、请求url查看

代码实现

相关文章