北大天网搜索引擎TSE分析及完全注释[5]倒排索引的建立及文件介绍

不好意思让大家久等了,前一阵一直在忙考试,终于结束了。呵呵!废话不多说了下面我们开始吧!

TSE用的是将抓取回来的网页文档全部装入一个大文档,让后对这一个大文档内的数据整体统一的建索引,其中包含了几个步骤。

view plain copy to clipboard print ?
  1. 1.  The document index (Doc.idx) keeps information about each document.   
  2.   
  3. It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.   
  4.   
  5. The information stored in each entry includes a pointer into the repository,   
  6.   
  7. a document length, a document checksum.   
  8.   
  9.   
  10.   
  11. //Doc.idx  文档编号 文档长度    checksum hash码   
  12.   
  13. 0   0   bc9ce846d7987c4534f53d423380ba70   
  14.   
  15. 1   76760   4f47a3cad91f7d35f4bb6b2a638420e5   
  16.   
  17. 2   141624  d019433008538f65329ae8e39b86026c   
  18.   
  19. 3   142350  5705b8f58110f9ad61b1321c52605795   
  20.   
  21. //Doc.idx   end   
  22.   
  23.   
  24.   
  25.   The url index (url.idx) is used to convert URLs into docIDs.   
  26.   
  27.   
  28.   
  29. //url.idx   
  30.   
  31. 5c36868a9c5117eadbda747cbdb0725f    0  
  32.   
  33. 3272e136dd90263ee306a835c6c70d77    1  
  34.   
  35. 6b8601bb3bb9ab80f868d549b5c5a5f3    2  
  36.   
  37. 3f9eba99fa788954b5ff7f35a5db6e1f    3  
  38.   
  39. //url.idx   end   
  40.   
  41.   
  42.   
  43. It is a list of URL checksums with their corresponding docIDs and is sorted by   
  44.   
  45. checksum. In order to find the docID of a particular URL, the URL's checksum   
  46.   
  47. is computed and a binary search is performed on the checksums file to find its   
  48.   
  49. docID.   
  50.   
  51.   
  52.   
  53.     ./DocIndex   
  54.   
  55.         got Doc.idx, Url.idx, DocId2Url.idx //Data文件夹中的Doc.idx DocId2Url.idx和Doc.idx中   
  56.   
  57.   
  58.   
  59. //DocId2Url.idx   
  60.   
  61. 0   http://*.*.edu.cn/index.aspx   
  62.   
  63. 1   http://*.*.edu.cn/showcontent1.jsp?NewsID=118   
  64.   
  65. 2   http://*.*.edu.cn/0102.html   
  66.   
  67. 3   http://*.*.edu.cn/0103.html   
  68.   
  69. //DocId2Url.idx end   
  70.   
  71.   
  72.   
  73. 2.  sort Url.idx|uniq > Url.idx.sort_uniq    //Data文件夹中的Url.idx.sort_uniq   
  74.   
  75.   
  76.   
  77. //Url.idx.sort_uniq   
  78.   
  79. //对hash值进行排序   
  80.   
  81. 000bfdfd8b2dedd926b58ba00d40986b    1111  
  82.   
  83. 000c7e34b653b5135a2361c6818e48dc    1831  
  84.   
  85. 0019d12f438eec910a06a606f570fde8    366  
  86.   
  87. 0033f7c005ec776f67f496cd8bc4ae0d    2103  
  88.   
  89.   
  90.   
  91. 3. Segment document to terms, (with finding document according to the url)   
  92.   
  93.     ./DocSegment Tianwang.raw.2559638448        //Tianwang.raw.2559638448为爬回来的文件 ,每个页面包含http头   
  94.   
  95.         got Tianwang.raw.2559638448.seg        
  96.   
  97.   
  98.   
  99. //Tianwang.raw.2559638448   爬取的原始网页文件在文档内部每一个文档之间应该是通过version,和回车做标志位分割的   
  100.   
  101. version: 1.0  
  102.   
  103. url: http://***.105.138.175/Default2.asp?lang=gb   
  104.   
  105. origin: http://***.105.138.175/   
  106.   
  107. date: Fri, 23 May 2008 20:01:36 GMT   
  108.   
  109. ip: 162.105.138.175  
  110.   
  111. length: 38413  
  112.   
  113.   
  114.   
  115. HTTP/1.1 200 OK   
  116.   
  117. Server: Microsoft-IIS/5.0  
  118.   
  119. Date: Fri, 23 May 2008 11:17:49 GMT   
  120.   
  121. Connection: keep-alive   
  122.   
  123. Connection: Keep-Alive   
  124.   
  125. Content-Length: 38088  
  126.   
  127. Content-Type: text/html; Charset=gb2312   
  128.   
  129. Expires: Fri, 23 May 2008 11:17:49 GMT   
  130.   
  131. Set-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/   
  132.   
  133. Cache-control: private  
  134.   
  135.   
  136.   
  137.   
  138.   
  139.   
  140.   
  141. "-//W3C//DTD HTML 4.01 Transitional//EN"  
  142.   
  143. "http://www.w3.org/TR/html4/loose.dtd">   
  144.   
  145.   
  146.   
  147.   
  148.   
  149. Apabi数字资源平台   
  150.   
  151. "Content-Type" content="text/html; charset=gb2312">   
  152.   
  153. "ROBOTS" CONTENT="INDEX,NOFOLLOW">   
  154.   
  155. "DESCRIPTION" CONTENT="数字图书馆 方正数字图书馆 电子图书 电子书 ebook e书 Apabi 数字资源平台">   
  156.   
  157. "stylesheet" type="text/css" href="css/common.css">   
  158.   
  159.   
  160.   
  161. "text/css">   
  162.   
  163.   
  164.   
  165.   
  166.   
  167.   
  168.   
  169. "vbscript">   
  170.   
  171. ...   
  172.   
  173.   
  174.   
  175.   
  176.   
  177. "javascript">   
  178.   
  179. ...   
  180.   
  181.   
  182.   
  183.   
  184.   
  185. "0" topmargin="0">   
  186.   
  187.   
  188.   
  189.   
  190.   
  191. //Tianwang.raw.2559638448   end   
  192.   
  193.   
  194.   
  195. //Tianwang.raw.2559638448.seg   将每个页面分成一行如下(注意中间没有回车作为分隔)   
  196.   
  197. 1  
  198.   
  199. ...   
  200.   
  201. ...   
  202.   
  203. ...   
  204.   
  205. 2  
  206.   
  207. ...   
  208.   
  209. ...   
  210.   
  211. ...   
  212.   
  213. //Tianwang.raw.2559638448.seg   end   
  214.   
  215.   
  216.   
  217. //下是 Tiny search 非必须因素   
  218.   
  219. 4. Create forward index (docic-->termid)     //建立正向索引   
  220.   
  221.     ./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx   
  222.   
  223.   
  224.   
  225. //Tianwang.raw.2559638448.seg 将每个页面分成一行如下
    //分词   DocID
    1
    三星/  s/  手机/  论坛/  ,/  手机/  铃声/  下载/  ,/  手机/  图片/  下载/  ,/  手机/
    2
    ...
    ...
    ...
      
1.  The document index (Doc.idx) keeps information about each document.It is a fixed width ISAM (Index sequential access mode) index, orderd by docID.The information stored in each entry includes a pointer into the repository,a document length, a document checksum.//Doc.idx  文档编号	文档长度	checksum hash码0	0	bc9ce846d7987c4534f53d423380ba701	76760	4f47a3cad91f7d35f4bb6b2a638420e52	141624	d019433008538f65329ae8e39b86026c3	142350	5705b8f58110f9ad61b1321c52605795//Doc.idx	endThe url index (url.idx) is used to convert URLs into docIDs.//url.idx5c36868a9c5117eadbda747cbdb0725f	03272e136dd90263ee306a835c6c70d77	16b8601bb3bb9ab80f868d549b5c5a5f3	23f9eba99fa788954b5ff7f35a5db6e1f	3//url.idx	endIt is a list of URL checksums with their corresponding docIDs and is sorted bychecksum. In order to find the docID of a particular URL, the URL's checksumis computed and a binary search is performed on the checksums file to find itsdocID../DocIndexgot Doc.idx, Url.idx, DocId2Url.idx	//Data文件夹中的Doc.idx DocId2Url.idx和Doc.idx中//DocId2Url.idx0	http://*.*.edu.cn/index.aspx1	http://*.*.edu.cn/showcontent1.jsp?NewsID=1182	http://*.*.edu.cn/0102.html3	http://*.*.edu.cn/0103.html//DocId2Url.idx	end2.  sort Url.idx|uniq > Url.idx.sort_uniq	//Data文件夹中的Url.idx.sort_uniq//Url.idx.sort_uniq//对hash值进行排序000bfdfd8b2dedd926b58ba00d40986b	1111000c7e34b653b5135a2361c6818e48dc	18310019d12f438eec910a06a606f570fde8	3660033f7c005ec776f67f496cd8bc4ae0d	21033. Segment document to terms, (with finding document according to the url)./DocSegment Tianwang.raw.2559638448		//Tianwang.raw.2559638448为爬回来的文件 ,每个页面包含http头got Tianwang.raw.2559638448.seg		//Tianwang.raw.2559638448	爬取的原始网页文件在文档内部每一个文档之间应该是通过version,和回车做标志位分割的version: 1.0url: http://***.105.138.175/Default2.asp?lang=gborigin: http://***.105.138.175/date: Fri, 23 May 2008 20:01:36 GMTip: 162.105.138.175length: 38413HTTP/1.1 200 OKServer: Microsoft-IIS/5.0Date: Fri, 23 May 2008 11:17:49 GMTConnection: keep-aliveConnection: Keep-AliveContent-Length: 38088Content-Type: text/html; Charset=gb2312Expires: Fri, 23 May 2008 11:17:49 GMTSet-Cookie: ASPSESSIONIDSSTRDCAB=IMEOMBIAIPDFCKPAEDJFHOIH; path=/Cache-control: privateApabi数字资源平台//Tianwang.raw.2559638448	end//Tianwang.raw.2559638448.seg	将每个页面分成一行如下(注意中间没有回车作为分隔)1.........2.........//Tianwang.raw.2559638448.seg	end//下是 Tiny search 非必须因素4. Create forward index (docic-->termid)		//建立正向索引./CrtForwardIdx Tianwang.raw.2559638448.seg > moon.fidx//Tianwang.raw.2559638448.seg 将每个页面分成一行如下
//分词   DocID
1
三星/  s/  手机/  论坛/  ,/  手机/  铃声/  下载/  ,/  手机/  图片/  下载/  ,/  手机/
2
...
...
...
view plain copy to clipboard print ?
  1. //Tianwang.raw.2559638448.seg end   
  2.   
  3.   
  4. //moon.fidx   
  5.   
  6. //每篇文档号对应文档内分出来的    分词  DocID   
  7.   
  8. 都会  2391  
  9.   
  10. 使   2391  
  11.   
  12. 那些  2391  
  13.   
  14. 拥有  2391  
  15.   
  16. 它   2391  
  17.   
  18. 的   2391  
  19.   
  20. 人   2391  
  21.   
  22. 的   2391  
  23.   
  24. 视野  2391  
  25.   
  26. 变   2391  
  27.   
  28. 窄   2391  
  29.   
  30. 在   2180  
  31.   
  32. 研究生部    2180  
  33.   
  34. 主页  2180  
  35.   
  36. 培养  2180  
  37.   
  38. 管理  2180  
  39.   
  40. 栏目  2180  
  41.   
  42. 下载  2180  
  43.   
  44. )   2180  
  45.   
  46. 、   2180  
  47.   
  48. 关于  2180  
  49.   
  50. 做好  2180  
  51.   
  52. 年   2180  
  53.   
  54. 国家  2180  
  55.   
  56. 公派  2180  
  57.   
  58. 研究生 2180  
  59.   
  60. 项目  2180  
  61.   
  62. //moon.fidx end   
  63.   
  64.   
  65.   
  66. 5.# set | grep "LANG"  
  67.   
  68. LANG=en; export LANG;   
  69.   
  70. sort moon.fidx > moon.fidx.sort   
  71.   
  72.   
  73.   
  74. 6. Create inverted index (termid-->docid)    //建立倒排索引   
  75.   
  76.     ./CrtInvertedIdx moon.fidx.sort > sun.iidx   
  77.   
  78.   
  79.   
  80. //sun.iidx  //文件规模大概减少1/2   
  81.   
  82. 花工   236  
  83.   
  84. 花海   2103  
  85.   
  86. 花卉   1018 1061 1061 1061 1730 1730 1730 1730 1730 1852 949 949  
  87.   
  88. 花蕾   447 447  
  89.   
  90. 花木   1061  
  91.   
  92. 花呢   1430  
  93.   
  94. 花期   447 447 447 447 447 525  
  95.   
  96. 花钱   174 236  
  97.   
  98. 花色   1730 1730  
  99.   
  100. 花色品种     1660  
  101.   
  102. 花生   450 526  
  103.   
  104. 花式   1428 1430 1430 1430  
  105.   
  106. 花纹   1430 1430  
  107.   
  108. 花序   447 447 447 447 447 450  
  109.   
  110. 花絮   136 137  
  111.   
  112. 花芽   450 450  
  113.   
  114. //sun.iidx  end   
  115.   
  116.   
  117.   
  118. TSESearch   CGI program for query   
  119.   
  120. Snapshot    CGI program for page snapshot   
  121.   
  122.   
  123.  
//Tianwang.raw.2559638448.seg end//moon.fidx//每篇文档号对应文档内分出来的	分词	DocID都会	2391使	2391那些	2391拥有	2391它	2391的	2391人	2391的	2391视野	2391变	2391窄	2391在	2180研究生部	2180主页	2180培养	2180管理	2180栏目	2180下载	2180)	2180、	2180关于	2180做好	2180年	2180国家	2180公派	2180研究生	2180项目	2180//moon.fidx	end5.# set | grep "LANG"LANG=en; export LANG;sort moon.fidx > moon.fidx.sort6. Create inverted index (termid-->docid)	//建立倒排索引./CrtInvertedIdx moon.fidx.sort > sun.iidx//sun.iidx	//文件规模大概减少1/2花工	 236花海	 2103花卉	 1018 1061 1061 1061 1730 1730 1730 1730 1730 1852 949 949花蕾	 447 447花木	 1061花呢	 1430花期	 447 447 447 447 447 525花钱	 174 236花色	 1730 1730花色品种	 1660花生	 450 526花式	 1428 1430 1430 1430花纹	 1430 1430花序	 447 447 447 447 447 450花絮	 136 137花芽	 450 450//sun.iidx	endTSESearch	CGI program for querySnapshot	CGI program for page snapshot

author:http://hi.baidu.com/jrckkyyauthor:http://blog.csdn.net/jrckkyy


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部