python怎么爬取网页上的图片

2023-10-24 04:08:56

这里以百度图片怎么爬取为目的，话不多说直接上代码。代码简单易懂

import os
import json
import urllib
import random
import time
import shutil
import requests
from urllib import parseimg_name = input("请输入要获取的图片名称:")
path2 = "F:/lsj/"  # 该路径自己随意更改
path = os.path.exists(path2)
if (path == False):  # 自动判断文件夹是否存在，并创建文件夹os.mkdir(path2)
else:shutil.rmtree(path2)os.mkdir(path2)
next_page = 0
num = 0
while True:num += 1next_page += 30try:name = urllib.parse.quote(img_name)  # 将汉字转义headers_list = ['Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0','Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; InfoPath.3)'"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.5005.63 Safari/537.36"]headers = {'Accept-Encoding': 'gzip, deflate, br',"Cookie": "BDqhfp=%E5%B0%8F%E7%8B%97%26%260-10-1undefined%26%266136%26%264; BAIDUID=D3CC40DFB336DA01E44AE82AF411BF55:FG=1; BIDUPSID=D3CC40DFB336DA01E44AE82AF411BF55; PSTM=1653291829; BDUSS=drTDU4eWNxfjg1c2FJRU1vYklveHIzTHdoZ2J6VmpTbHB0cU5DNS1YdWZLYjFpSUFBQUFBJCQAAAAAAAAAAAEAAABU7OHovquyytPQWU9VAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAJ-clWKfnJVicW; BDUSS_BFESS=drTDU4eWNxfjg1c2FJRU1vYklveHIzTHdoZ2J6VmpTbHB0cU5DNS1YdWZLYjFpSUFBQUFBJCQAAAAAAAAAAAEAAABU7OHovquyytPQWU9VAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAJ-clWKfnJVicW; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; BA_HECTOR=21018ka40h01ag0h8k1h9g7r414; ZFY=d4m9E1snb74UmogCcjoMaQOPE:AlJfjvIb9trkr4mYzs:C; BAIDUID_BFESS=D3CC40DFB336DA01E44AE82AF411BF55:FG=1; delPer=0; PSINO=7; H_PS_PSSID=36425_36502_36454_31253_36452_36421_36166_36488_36518_36055_36520_26350_36469_36311; BDRCVFR[X_XKQks0S63]=mk3SLVN4HKm; firstShowTip=1; BDRCVFR[dG2JNJb_ajR]=mk3SLVN4HKm; BDRCVFR[-pGxjrCMryR]=mk3SLVN4HKm; cleanHistoryStatus=0; indexPageSugList=%5B%22%E5%B0%8F%E7%8B%97%22%2C%22%E7%BE%8E%E5%A5%B3%22%5D; kleck=31e66bb4fd4e2d1e3e1fffff596f993a; userFrom=null; ab_sr=1.0.1_ZTMxYmZkZjUxMWYyMTYxMmMxYWJlMjhmMWYzYmYyMGIwNDQxYTAzZWJiMjdjODg5NTU4NjM2NmYzYzkyODRhYzY5ZDdhZGIxODM4MThlNmE4ZDhlYmE2MTA1ODE1YTEwY2UwNmIwOWE0MTZlMmU0ZDk5ZTRmN2UyMTk0OTAyNTNiMDVjMWQ2MDhkNzU0Yjk3YWM4ODAxZTI3N2RmMzE5Yg==","Referer": "https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&fm=index&pos=history&word=%E5%B0%8F%E7%8B%97",'User-Agent': random.choice(headers_list)}input_url_api = "https://image.baidu.com/search/acjson?tn=resultjson_com&logid=9643182277295175202&ipn=rj&ct=201326592&is=&fp=result&fr=&word=" + name + "&queryWord=" + name + "&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&hd=&latest=©right=&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&expermode=&nojc=&isAsync=&pn=" + str(next_page)  # 百度图片apidata_html = requests.get(input_url_api, headers=headers).textdatas = json.loads(data_html)data = datas['data']for img_data in data:try:img_url = img_data["thumbURL"]print("第", num, "页:", img_url)img_text = requests.get(img_url, stream=True)alphabet = 'abcdefghijklmnopqrstuvwxyz'characters = ''.join(random.sample(alphabet, 8))suiji_name = str(int(time.time())) + characterswith open(path2 + suiji_name + '.jpg', 'wb') as fd:for imgurls in img_text.iter_content():  # 循环写入图片fd.write(imgurls)except Exception as err:continue# 在此可以加入页面的限制if(next_page >= “页面数量”): breakexcept Exception as err:continue

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

python怎么爬取网页上的图片

相关文章