Scrapy 框架里爬取多页数据 yield 卡住的问题

2023-08-30 08:59:48

1@ 前言

漫长的寒假必须找点事情来做，刚好换了系统，准备将笔记全部从石墨腾到印象。在复习 scrapy 框架的时候, 遇到了一个问题，就是在爬取多个页面的换页时候，要进行 yield 操作来进行下一个页面的爬取，但是爬取完第一页后，老是卡在那里，也不报错，就是单纯的卡，也花费了一些时间解决，故在此记录下。

2@ 过程

首先上我出问题的代码段：

class PoemSpider(scrapy.Spider):name = 'poem'allowed_domains = ['gushiwen.org']start_urls = ['https://www.gushiwen.org/default_1.aspx']base_url = "https://gushiwen.org"# 更多的 response 的方法，可以跟进查看 py 源码def parse(self, response):......for x in range(10):print("@"*100)print(titles[x])item["title"] =  titles[x]item["author"] = authors[x]item["dynasty"] =  dynasties[x]item["contents"] = contents[x]encoder.encode(item)yield itemnext_url = response.xpath("//a[@id='amore']/@href").get()print("@"*100)print(next_url)if not next_url:returnelse:print("test2")yield scrapy.Request(url=self.base_url+next_url, callback=self.parse,dont_filter=True)

由于未报错，我加入两行打印代码来定位问题的位置：

在这里插入图片描述
可以看到，代码是进行到了 else 分支的，那么大概率就是 Request 方法出了问题。网上搜了很久，没有搜到匹配的问题，修改了 timeout 的值还是于事无补，所以就从头开始看代码，注意到三个变量：

allowed_domains
start_urls
base_url

分别表示的是允许的域名，开始 url，基底 url , 其中第三个变量是为了拼接后面的 url 我自己定义的，他们三个的格式不一样：

allowed_dmains 是初始化爬虫项目的时候自己指定的，我将 base_url 的域名格式完全与 satrt_urls 调整一致，就可已顺利爬取后面页面了。

在这里插入图片描述

3@ 结论

这里 allowed_domains 规定好主域名，下面的所有子域名都可爬取，不过子域名要和项目的开始域名完全一致。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > ANSYS workbench的疲劳分析基本原理和步骤
下一篇 > 数据科学家常犯的10个编程错误（附解决方案）

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

Scrapy 框架里爬取多页数据 yield 卡住的问题

1@ 前言

2@ 过程

3@ 结论

相关文章