Nutch学习笔记二

2023-11-22 23:44:46

1，对Nutch抓取的数据块分析

nutch readseg –dump crawl/segments/20070516154114 segdb

这样会产生一个 dump 文件,这是一次抓取循环的结果,如果要查看其他

文件夹下抓取的结果,只要更改最后那个以时间命名的文件夹就可以了

dump文件

Recno:: 0
URL:: http://www.qq.com/

ParseText::
腾讯首页
Content::
Version: -1
url: http://www.qq.com/
base: http://www.qq.com/
contentType: text/html
metadata: Date=Sun, 14 Jul 2013 03:00:30 GMT Vary=Accept-Encoding Expires=Sun, 14 Jul 2013 03:15:30 GMT Content-Encoding=gzip nutch.crawl.score=1.0 _fst_=33 nutch.segment.name=20130714110029 Content-Type=text/html; charset=GB2312 Connection=close Server=squid/3.1.18 X-Cache=MISS from shanghai.qq.com Cache-Control=max-age=900
Content:

��Ѷ��ҳ