疯子网页采集器教程之提取链接

本教程要采集的站点为
http://www.youlu.net/classify/2-1219-183-1.html第一步:
打开地址
第一页地址为
http://www.youlu.net/classify/2-1219-183-1.html
下一页/第二页
http://www.youlu.net/classify/2-1219-183-2.html
第三页
http://www.youlu.net/classify/2-1219-183-3.html
第四页
http://www.youlu.net/classify/2-1219-183-4.html
找到地址变化规律,地址中只有一个数字是不一样的,
这个数字就是每一页的页码数
填写标签头
http://www.youlu.net/classify/2-1219-183-
标签尾
.html
跳过不一样的数字
------------------------------
第二步:
填写要采集的总页数,比如4页,这里总共有10页
填写页码变化,比如4,页码变化为4,
将采集第1、5、9页的链接,这里填1
---------------------------------
第三步:写链接规则
点击显示浏览器,在地址栏输入地址
http://www.youlu.net/classify/2-1219-183-1.html
点击打开,等网页加载完再点击代码
把代码用dreamweaver或别的网页编辑器打开方便浏览
在代码中找到我们要采集的链接列表区域,
找到所有标题的共同点
所有标题都有

这个标签和 标签

其中标题 史蒂夫乔布斯传 中的是链接,

这个链接是不一样的,也是我们要采集的链接地址 标签头 标签头和标签尾就是所有标题都有的标签

-------------------------------

第四步:

类似的我们还可以采集价位 方法一样

内容1

标签头

标签尾

内容2

标签头

标签尾


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部