lucene全文检索操作实例

2023-08-30 14:51:35

Lucene是apache下的一个开放源代码的全文检索引擎工具包。提供了完整的查询引擎和索引引擎，部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能。

全文检索

将非结构化数据中的一部分信息提取出来，重新组织，使其变得有一定结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息，我们称之索引。

例如：字典。字典的拼音表和部首检字表就相当于字典的索引，对每一个字的解释是非结构化的，如果字典没有音节表和部首检字表，在茫茫辞海中找一个字只能顺序扫描。然而字的某些信息可以提取出来进行结构化处理，比如读音，就比较结构化，分声母和韵母，分别只有几种可以一一列举，于是将读音拿出来按一定的顺序排列，每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音，然后按其指向的页数，便可找到我们的非结构化数据——也即对字的解释。

这种先建立索引，再对索引进行搜索的过程就叫全文检索**(Full-text Search)****。**

虽然创建索引的过程也是非常耗时的，但是索引一旦创建就可以多次使用，全文检索主要处理的是查询，所以耗时间创建索引是值得的。对于数据量大、数据结构不固定的数据可采用全文检索方式搜索，比如百度、Google等搜索引擎、论坛站内搜索、电商网站站内搜索等。

Tip:lucene对java环境的最低要求为JAVA1.8

创建索引

第一步：创建一个java工程，并导入jar包。

工程所需jar包:

第二步：创建一个indexwriter对象。

1）指定索引库的存放位置Directory对象

2）指定一个IndexWriterConfig对象。

第二步：创建document对象。

第三步：创建field对象，将field添加到document对象中。

第四步：使用indexwriter对象将document对象写入索引库，此过程进行索引创建。并将索引和document对象写入索引库。

第五步：关闭IndexWriter对象。

代码如下:

 @Testpublic void createIndex() throws Exception {//创建一个Director对象,指定索引库保存的位置Directory directory = FSDirectory.open(new File("c:\\temp\\index").toPath());//基于directory对象创建一个IndexWriter对象IndexWriter indexWriter = new IndexWriter(directory, new IndexWriterConfig());//读取磁盘上的文件File dir = new File("C:\\Users\\liu\\Desktop\\searchsource");//原始文档的路径File[] files = dir.listFiles();for (File f : files) {String name = f.getName();String filePath = f.getPath();String fileContent = FileUtils.readFileToString(f, "utf-8");long fileSize = FileUtils.sizeOf(f);//创建Field//第一个参数：域的名称//第二个参数：域的内容//第三个参数：是否存储Field fieldName = new TextField("name", name, Field.Store.YES);//文件路径域（不分析、不索引、只存储）Field fieldPath = new TextField("path", filePath, Field.Store.YES);//文件内容域Field fieldContent = new TextField("content", fileContent, Field.Store.YES);//文件大小域Field fieldSize = new TextField("size", fileSize + "", Field.Store.YES);//创建文档对象Document document = new Document();document.add(fieldName);document.add(fieldPath);document.add(fieldContent);document.add(fieldSize);//把文档对象写入索引库indexWriter.addDocument(document);}//关闭indexwriterindexWriter.close();}

createIndex方法运行后会在c:\\temp\\index文件夹下生成索引文件,如下图:

生成的索引文件为二进制文件,可以使用luke打开索引

查看索引

luck开始界面如下,在indexPath中选择索引存储位置文件夹即可

查询索引

第一步：创建一个Directory对象，也就是索引库存放的位置。

第二步：创建一个indexReader对象，需要指定Directory对象。

第三步：创建一个indexsearcher对象，需要指定IndexReader对象

第四步：创建一个TermQuery对象，指定查询的域和查询的关键词。

第五步：执行查询。

第六步：返回查询结果。遍历查询结果并输出。

第七步：关闭IndexReader对象

代码如下:

    @Testpublic void searchIndex() throws Exception {//指定索引库存放的路径Directory directory = FSDirectory.open(new File("c:\\temp\\index").toPath());//创建indexReader对象IndexReader indexReader = DirectoryReader.open(directory);//创建indexsearcher对象IndexSearcher indexSearcher = new IndexSearcher(indexReader);//创建查询Query query = new TermQuery(new Term("content", "spring"));//执行查询//第一个参数是查询对象，第二个参数是查询结果返回的最大值TopDocs topDocs = indexSearcher.search(query, 10);//查询结果的总条数System.out.println("查询总记录数:" + topDocs.totalHits);//遍历查询结果//topDocs.scoreDocs存储了document对象的idScoreDoc[] scoreDocs = topDocs.scoreDocs;for (ScoreDoc doc : scoreDocs) {//scoreDoc.doc属性就是document对象的id//根据document的id找到document对象int docId = doc.doc;Document document = indexSearcher.doc(docId);System.out.println(document.get("name"));System.out.println(document.get("path"));System.out.println(document.get("size"));System.out.println(document.get("content"));System.out.println("--------------------------");}//关闭indexreader对象indexReader.close();}

部分查询结果如下图:

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > lucene全文检索多种查询检索简单案例
下一篇 > 全文检索solr

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce

lucene全文检索操作实例

全文检索

创建索引

查看索引

查询索引

相关文章