Gecco学习笔记（十二）

2023-10-24 05:40:10

2021SC@SDUSC

接上篇

public class ProductBrief implements HtmlBean {private static final long serialVersionUID = -377053120283382723L;@Attr("data-sku")@HtmlField(cssPath=".j-sku-item")private String code;@Text@HtmlField(cssPath=".p-name> a > em")private String title;@Image({"data-lazy-img", "src"})@HtmlField(cssPath=".p-img > a > img")private String preview;@Href(click=true)@HtmlField(cssPath=".p-name > a")private String detailUrl;public String getTitle() {return title;}public void setTitle(String title) {this.title = title;}public String getPreview() {return preview;}public void setPreview(String preview) {this.preview = preview;}public String getDetailUrl() {return detailUrl;}public void setDetailUrl(String detailUrl) {this.detailUrl = detailUrl;}public String getCode() {return code;}public void setCode(String code) {this.code = code;}}

这里需要说明一下@Href(click=true)的click属性，click属性形象的说明了，这个链接我们希望gecco继续点击抓取。对于增加了click=true的链接，gecco会自动加入下载队列中，不需要在手动调用SchedulerContext.into()增加。ProductList抓取完成后一般需要进行持久化，也就是将商品的基本信息入库，入库的方式有很多种，gecco支持整合spring，可以利用spring进行pipeline的开发。本篇是进行了控制台输出。ProductList的业务处理还有一个很重要的任务，就是对分页的处理，列表页通常都有很多页，如果需要全部抓取，我们需要将下一页的链接入抓取队列。

@PipelineName("productListPipeline")
public class ProductListPipeline implements Pipeline {@Overridepublic void process(ProductList productList) {HttpRequest currRequest = productList.getRequest();//下一页继续抓取int currPage = productList.getCurrPage();int nextPage = currPage + 1;int totalPage = productList.getTotalPage();if(nextPage <= totalPage) {String nextUrl = "";String currUrl = currRequest.getUrl();if(currUrl.indexOf("page=") != -1) {nextUrl = StringUtils.replaceOnce(currUrl, "page=" + currPage, "page=" + nextPage);} else {nextUrl = currUrl + "&" + "page=" + nextPage;}SchedulerContext.into(currRequest.subRequest(nextUrl));}}}

JD的列表页通过page参数来指定页码，我们通过替换page参数达到分页抓取的目的。至此，所有的商品的列表信息都已经可以正常抓取了。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > Gecco学习笔记（七）
下一篇 > 一个易用的轻量级的网络爬虫(Easy to use lightweight web crawler)

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

Gecco学习笔记（十二）

相关文章