使用scrapy-redis 爬取京东图书信息（案例）

2023-11-23 03:04:54

前提环境：WIN10, pycharm, redis, scrapy-redis

需求：抓取京东图书信息

目标：使用 Scrapy_Redis 抓取京东图书的信息，有图书的大类别（b_category）、图书小类别的 url（s_href）、图书的小类别（s_cate）、图片（book_img）、书名（book_name）、作者（book_author）、出版社（book_press）、出版时间（book_publish_date）、价格（book_price）等

Step 1：创建爬虫 scrapy 项目

# -*- coding: utf-8 -*-
import scrapy
from copy import deepcopy
import json
import urllibclass JdbookSpider(scrapy.Spider):name = 'jdbook'allowed_domains = ['jd.com', 'p.3.cn']start_urls = ['https://book.jd.com/booksort.html']def parse(self, response):dt_list = response.xpath("//div[@class='mc']/dl/dt")  # 大分类列表for dt in dt_list:item = {}item["b_category"] = dt.xpath("./a/text()").extract_first()em_list = dt.xpath("./following-sibling::dd[1]/em")  # 小分类列表for em in em_list:item["s_href"] = em.xpath("./a/@href").extract_first()item["s_cate"] = em.xpath("./a/text()").extract_first()if item["s_href"] is not None:item["s_href"] = "https:" + item["s_href"]yield scrapy.Request(item["s_href"],callback=self.parse_book_list,meta={"item":deepcopy(item)})def parse_book_list(self, response):  # 解析列表页item = response.meta["item"]li_list = response.xpath("//div[@id='plist']/ul/li")for li in li_list:item["book_img"] = li.xpath(".//div[@class='p-img']//img/@src").extract_first()if item["book_img"] is None:item["book_img"] = li.xpath(".//div[@class='p-img']//img/@data-lazy-img").extract_first()item["book_img"] = "https:" + item["book_img"] if item["book_img"] is not None else Noneitem["book_name"] = li.xpath(".//div[@class='p-name']/a/em/text()").extract_first().strip()item["book_author"] = li.xpath(".//span[@class='author_type_1']/a/text()").extract()item["book_press"] = li.xpath(".//span[@class='p-bi-store']/a/@title").extract_first()item["book_publish_date"] = li.xpath(".//span[@class='p-bi-date']/text()").extract_first().strip()item["book_sku"] = li.xpath("./div/@data-sku").extract_first()yield scrapy.Request("https://p.3.cn/prices/mgets?skuIds=J_{}".format(item["book_sku"]),callback=self.parse_book_price,meta={"item":deepcopy(item)})# 列表页翻页next_url = response.xpath("//a[@class='pn-next']/@href").extract_first()if next_url is not None:next_url = urllib.parse.urljoin(response.url, next_url)yield scrapy.Request(next_url,callback=self.parse_book_list,meta={"item":item})def parse_book_price(self, response):item = response.meta["item"]item["book_price"] = json.loads(response.body.decode())[0]["op"]print(item)

Step 3：修改 setting.py 文件

Step 3：执行: scrapy crawl jdbook

redis 查看是否存在

完整代码见：jdbook

完结撒花~~

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 【3D动态思维导图制作软件】万彩脑图大师教程 | 自动整理思维导图
下一篇 > 爬取京东图书Java实现

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

使用scrapy-redis 爬取京东图书信息 （案例）

相关文章

使用scrapy-redis 爬取京东图书信息（案例）