Nutch学习笔记二
1,对Nutch抓取的数据块分析
nutch readseg –dump crawl/segments/20070516154114 segdb
这样会产生一个 dump 文件,这是一次抓取循环的结果,如果要查看其他
文件夹下抓取的结果,只要更改最后那个以时间命名的文件夹就可以了
dump文件
Recno:: 0
URL:: http://www.qq.com/
ParseText::
腾讯首页
Content::
Version: -1
url: http://www.qq.com/
base: http://www.qq.com/
contentType: text/html
metadata: Date=Sun, 14 Jul 2013 03:00:30 GMT Vary=Accept-Encoding Expires=Sun, 14 Jul 2013 03:15:30 GMT Content-Encoding=gzip nutch.crawl.score=1.0 _fst_=33 nutch.segment.name=20130714110029 Content-Type=text/html; charset=GB2312 Connection=close Server=squid/3.1.18 X-Cache=MISS from shanghai.qq.com Cache-Control=max-age=900
Content: