《开发自己的搜索引擎》读书笔记——一个简单的过滤的例子

2023-11-24 12:36:13

Lucene中所有的过滤器均来自于一个抽象的基类org.apache.lucene.search.Filter，它定义了过滤器的基本行为。

Filter是一种过滤行为，这种过滤行为在Lucene的搜索时的表现就是“视而不见”，即遇到该文档时，发现它被“过滤”了，于是就省略它。BitSet是一种“位集合”队列，这个队列中的每个元素都只有两种取值，即true或false，Lucene以这两种取值来代表文档是否被过滤。也就是说，当Lucene返回结果时，会首先遍历BitSet，仅将那些对应值为true的文档返回。BitSet集合中，将其索引号看做是文档内部的ID号。

例如，在图书检索系统中，有些保密性质的书籍或论文只有高级权限的用户才可以访问，这时候就需要为其设计一个Filter。当低权限的用户发出检索请求时，要将这个Filter用上，来过滤掉那些保密性质的书籍或论文。

下面是一个这样的例子的实现，所有的书籍分为三级。

建立索引的代码如下：

package Filter;import org.apache.lucene.analysis.standard.*;
import org.apache.lucene.document.*;
import org.apache.lucene.index.*;/*** 过滤器测试* @author sdu20**/
public class FilterTest {public static final String INDEX_STORE_PATH = "E:\\编程局\\Java编程处\\Index\\ch5001\\";public static final String SECURITY_ADVANCED = "advanced";public static final String SECURITY_MIDDLE = "middle";public static final String SECURITY_NORMAL = "normal";private IndexWriter writer;public static void main(String[] args) {// TODO Auto-generated method stub}public FilterTest(){try{writer = new IndexWriter(INDEX_STORE_PATH,new StandardAnalyzer(),true);writer.setUseCompoundFile(false);}catch(Exception e){System.out.println(e.getStackTrace());}}private Document aDocument(String number,String name,String data,String security){Document doc1 = new Document();Field f1 = new Field("bookNumber",number,Field.Store.YES,Field.Index.UN_TOKENIZED);Field f2 = new Field("bookname",name,Field.Store.YES,Field.Index.UN_TOKENIZED);Field f3 = new Field("publishdate",data,Field.Store.YES,Field.Index.UN_TOKENIZED);Field f4 = new Field("securitylevel",security+"",Field.Store.YES,Field.Index.UN_TOKENIZED);doc1.add(f1);doc1.add(f2);doc1.add(f3);doc1.add(f4);return doc1;}/*** 建立索引*/public void createIndex(){try{Document doc1 = aDocument("0000003","自然哲学的数学原理","1999-01-01",SECURITY_ADVANCED);Document doc2 = aDocument("0000005","微积分","1995-07-01",SECURITY_MIDDLE);Document doc3 = aDocument("0000001","氢弹研究","1963-02-11",SECURITY_ADVANCED);Document doc4 = aDocument("0000006","太平广记","1988-05-11",SECURITY_NORMAL);Document doc5 = aDocument("0000004","弹道导弹轨迹研究","1959-10-22",SECURITY_ADVANCED);Document doc6 = aDocument("0000007","乡土中国","1970-01-11",SECURITY_MIDDLE);Document doc7 = aDocument("0000002","三国演义","1977-09-07",SECURITY_NORMAL);writer.addDocument(doc1);writer.addDocument(doc2);writer.addDocument(doc3);writer.addDocument(doc4);writer.addDocument(doc5);writer.addDocument(doc6);writer.addDocument(doc7);writer.close();				}catch(Exception e){System.out.println(e.getStackTrace());}}}

我们可以通过如下代码来检查索引中的所有信息：

package Filter;import org.apache.lucene.document.Document;
import org.apache.lucene.index.*;/*** 打印出索引中所有文档的详细信息* @author sdu20**/
public class ShowInfo {public static void main(String[] args) {// TODO Auto-generated method stubFilterTest test = new FilterTest();test.createIndex();try{IndexReader reader = IndexReader.open(FilterTest.INDEX_STORE_PATH);for(int i = 0;i

 
索引中的信息情况如下所示： 
 
  
 
 
 
 
 
我们可以自定义一个过滤器，来过滤掉高级的结果： 
 
package Filter;import java.io.IOException;
import java.util.BitSet;import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.*;
import org.apache.lucene.search.*;/*** 一个简单的Filter* @author sdu20**/
public class AdvancedFilter extends Filter{@Overridepublic BitSet bits(IndexReader reader) throws IOException {// TODO Auto-generated method stubfinal BitSet bits = new BitSet(reader.maxDoc());bits.set(0,bits.size()-1);Term term = new Term("securitylevel",FilterTest.SECURITY_ADVANCED);TermDocs termDocs = reader.termDocs(term);while(termDocs.next()){bits.set(termDocs.doc(),false);}return bits;}}
 
运用这个过滤器来进行查询出版日期在1900年1月1日到2000年1月1日之间的书籍信息： 
 
package Filter;import org.apache.lucene.document.Document;
import org.apache.lucene.index.*;
import org.apache.lucene.search.*;/*** 在搜索时应用我们的简单过滤器* @author sdu20**/
public class UseMyFilter {public static void main(String[] args) {// TODO Auto-generated method stub//构建索引FilterTest test = new FilterTest();test.createIndex();System.out.println("索引创建成功");try{Term begin = new Term("publishdate","1900-01-01");Term end = new Term("publishdate","2000-01-01");RangeQuery q = new RangeQuery(begin,end,true);IndexSearcher searcher = new IndexSearcher(FilterTest.INDEX_STORE_PATH);Hits hits = searcher.search(q,new AdvancedFilter());System.out.println(hits.length());for(int i = 0;i
 
查询结果如下所示： 
 
  
 
 
 
我们可以看出，查询返回的结果只有四个，所有的高级属性的书籍信息都被过滤掉了。 
 
 
                        
                        
本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！



                    



                    

    收藏
    



                    
    
        
        标签：技术
        
    

    
        
                
            上一篇 >
            什么是零点漂移？能消除吗？怎么消除？
        
                
            下一篇 >
            202328读书笔记|《杨绛传：岁月流转，我心依然》——我和谁都不争，和谁争我都不屑。我爱大自然，其次就是艺术。
        
                
    



                    
    
        
        
            相关文章
        
                
            Duilib中list控件支持ctrl和shif多行选中的实现
        
                
            [ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif
        
                
            win10系统 微软输入法 于eclipse ctrl+shif+f冲突间接处理办法
        
                
            Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif
        
                
            读LDD3，内存映射与DMA--PAGE_SHIF…
        
                
            VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】
        
                
            更换iBus五笔的左与右Shif
        
                
            sublime ctrl+shif+f 没用解决办法
        
                
            idea 对 ctrl + z 的撤销 是 ctrl + shif + z
        
                
            计算机最早的设计师应用于,计算机应用基础选择题doc.doc
        
                
            win10自带截图神器：Win+Shift+S
        
                
            Python基础之文件目录操作
        
                
            python简述目录_Python基础之文件目录操作(示例代码)
        
                
            tp5 如何做数据采集
        
                
            任务2-7(服务器字体+阿里巴巴矢量库)
        
                
            html标签（1)：h1~h6,p,br,pre,hr
        
                
            TI 电量计介绍与芯片选型指南
        
                
            几款TI电源芯片简介
        
                
            TI DSP芯片C2000系列读取FLASH数据
        
                
            德州仪器(Ti)平台嵌入式开发基础
        
                
            TI三相电机智能栅极驱动芯片特点分类
        
                
            省选模拟（12.08） T3 圈圈圈圈圈圈圈圈
        
                
            Hadoop生态圈技术栈（上）
        
                
            大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询
        
                
            小猿圈之Linux下Mysql 操作命令
        
                
            大数据Hadoop生态圈常用面试题
        
                
            大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作
        
                
            备战Noip2018模拟赛11（B组）T3 Monogatari 物语
        
                
            【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码
        
                
            NYOJ 78 圈水池
        
                
            递归问题 跑道 汽车 绕圈问题 Python实现
        
                
            Hadoop生态圈（三）：MapReduce



        
            


            

    
        内容推荐
    
    
                
            
                1
            
            
                大厂出品！保姆级教程帮你掌握「用户体验要素」
            
        
                
            
                2
            
            
                大厂实战案例！设计师如何助力京东快递业务增长？
            
        
                
            
                3
            
            
                总监干货！5个常见的UI设计规范创建误区
            
        
                
            
                4
            
            
                数据库管理利器——Navicat Premium v17.0.4学习版(Windows+MacOS+Linux)
            
        
                
            
                5
            
            
                进阶必学！快速掌握10种国际主流设计模型
            
        
                
            
                6
            
            
                春节期间，10个大厂的产品细节走心设计
            
        
                
            
                7
            
            
                如何帮助用户度过新人期？来看雪球APP的实战总结！
            
        
                
            
                8
            
            
                Sketch 95.3最新版下载 (Sketch矢量绘图应用软件)
            
        
                
            
                9
            
            
                Axure RP 9 最新正式版安装软件与汉化语言包下载(2023年3月30日更新)
            
        
                
            
                10
            
            
                嘘！SaaS产品的差异化设计细节，一般人我不告诉他
            
        
            




    





    
    
        最新更新
    
    
        
                        
                [产品经理]
                3分钟绘制流程图！这个AI+绘图工具的神仙组合，学完老板直呼内行
            
                        
                [产品经理]
                商业潜规则：打败你的不是AI，而是人性
            
                        
                [产品设计]
                DeepSeek+智能派单系统的实践分享
            
                        
                [产品经理]
                一文读懂本年实际损益借(贷)方发生额
            
                        
                [创业学院]
                大客户 vs 中小企业：需求竟天差地别？以企业培训数字化为例
            
                        
                [产品经理]
                不要将员工的“猴子”背到自己身上：职场管理中的权责划分
            
                        
                [产品经理]
                人工智能的三层架构：从应用层到基础服务层，解密智能革命
            
                        
                [产品设计]
                一文讲清楚iOS的SKAN4.0
            
                    
    
    



    
        热门标签
    
    
        
                         数量
                         AI技术趋势
                         用户角色
                         心智游移
                         自然生态系统
                         会员权益
                         AirDrop
                         hashmap
                         小龙虾
                         焦虑
                         危机处理
                         发展
                         微信群折叠
                         toast
                         测评新算法
                         改版
                         wireshark
                         投放方式
                         音频播放动效
                         timer
                         女性商业
                         古典自媒体
                         海外博主
                         repeater
                         转账
                         万能钥匙
                         秋招
                         快服务
                         个人演讲
                         客户共识