scrapy通用随机下载延迟、IP代理、UA

2023-08-29 09:31:15

在这里插入图片描述

main.py文件

# -*- coding:utf-8 -*-from scrapy import cmdlinecmdline.execute('scrapy crawl test'.split())

settings.py文件

# -*- coding: utf-8 -*-BOT_NAME = 'mytest'SPIDER_MODULES = ['mytest.spiders']
NEWSPIDER_MODULE = 'mytest.spiders'# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'mytest (+http://www.yourdomain.com)'# Obey robots.txt rules
ROBOTSTXT_OBEY = False#随机下载延迟
RANDOM_DELAY = 2DOWNLOADER_MIDDLEWARES = {# 'mytest.middlewares.MytestDownloaderMiddleware': 543,'mytest.middlewares.RandomDelayMiddleware': 100,'mytest.middlewares.UserAgentMiddleware': 100,# 'mytest.middlewares.ProxyMiddleware': 100,
}
# 代理IP池
PROXIES =['http://47.94.230.42:9999','http://117.87.177.58:9000','http://125.73.220.18:49128','http://117.191.11.72:8080']# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
# ITEM_PIPELINES = {
#    'mytest.pipelines.MytestPipeline': 300,
# }

pipline文件

# -*- coding: utf-8 -*-import pymysqlclass MytestPipeline(object):def open_spider(self,spider):self.conn = pymysql.connect(host='192.168.186.128',user='root',password='root',db='python',charset='utf8')def process_item(self, item, spider):print('hahahahahahahhah')csl = self.conn.cursor()count = csl.execute('select title,comment from goods where comment<=5')# 打印受影响的行数print("查询到%d条数据:" % count)for i in range(count):# 获取查询的结果result = csl.fetchone()# 打印查询的结果print(result)# 获取查询的结果# 关闭Cursor对象csl.close()return itemdef close_spider(self,spider):self.conn.close()

middlerware文件

# -*- coding: utf-8 -*-from scrapy import signals
from fake_useragent import UserAgent
import time,random,loggingclass UserAgentMiddleware(object):def process_request(self, request, spider):request.headers.setdefault(b'User-Agent', UserAgent().random)class RandomDelayMiddleware(object):def __init__(self, delay):self.delay = delay@classmethoddef from_crawler(cls, crawler):delay = crawler.spider.settings.get("RANDOM_DELAY", 10)if not isinstance(delay, int):raise ValueError("RANDOM_DELAY need a int")return cls(delay)def process_request(self, request, spider):delay = random.randint(0, self.delay)logging.debug("### random delay: %s s ###" % delay)time.sleep(delay)class ProxyMiddleware(object):'''设置Proxy'''def __init__(self, ip):self.ip = ip@classmethoddef from_crawler(cls, crawler):return cls(ip=crawler.settings.get('PROXIES'))def process_request(self, request, spider):try:ip = random.choice(self.ip)request.meta['proxy'] = ipexcept:pass

test.py文件

# -*- coding: utf-8 -*-
import scrapy
from mytest.items import MytestItemclass TestSpider(scrapy.Spider):name = 'test'# allowed_domains = ['test.com']# start_urls = ['https://www.baidu.com/']'''测试IP代理'''def start_requests(self):url = 'http://httpbin.org/get'for i in range(1):yield scrapy.Request(url=url, callback=self.parse, dont_filter=True)def parse(self, response):itme = MytestItem()itme['name'] = response.text# print(response.text)yield itme# print(response.request.headers)

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 公寓出租房屋租赁小程序开发
下一篇 > open62541 （R 1.1.2）中文文档（译文）第二篇（6 数据类型）

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

scrapy通用随机下载延迟、IP代理、UA

相关文章