Python Scrapy 爬虫踩过的坑(一)

 

一、DEBUG Crawled 200 ,具体报错信息如下图所示:

爬虫初学者,记录自己曾爬过的坑。

1. 200为HTTP 状态码,代表访问OK。

2. 但是设置的正则的返回的爬取信息为[]

3. 主要出错原因,爬取的为分类下的数据信息,start_urls = [ ] 为设置爬虫文件时 域名所对应的网址。需要修改为分类下的网站。才能爬取数据成功。 

https://stackoverflow.com/questions/32190222/scrapy-debug-crawled-200 

也有可能是正则表达式的设置出错+JS界面的原因

二、Overridden setting 

主要报错信息如下图所示: 

创建爬虫文件的时候,scrapy genspider -t crawl file_name domain_name   采用了crawl模板,setting.py 已配置了相关的访问信息。USER_AGENT字段的设置与file_name(爬


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部