【搜索引擎】Lucene、Solr、Elasticsearch-蒲公英云

【场景实例】

我们每天都会用百度、Google等搜索引擎去查询一些相关东西，我们也经常会上淘宝、京东等网站去搜索自己想要的东西，我们的搜索，广泛、不确定，但我们同样可以快速、高效地得到搜索结果。

【搜索方案】

其实，对于这些数据量大、数据结构不固定的数据，通常都采用全文检索方式搜索。

那么，什么是全文检索呢？如下：

将非结构化数据中的一部分信息提取出来，重新组织，使其变得有一定结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的目的。从非结构化数据中提取出然后重新组织的信息，称之为索引。因此，先建立索引，再对索引进行搜索的过程叫全文检索。

【如何实现】

用Lucene就可以实现全文搜索，另外，solr和elasticsearch都是基于Lucene实现的开源搜索引擎，也可以实现。

1. Lucene：其是Apache下的一个开放源代码的全文检索引擎工具包。提供了完整的查询引擎和索引引擎，部分文本分析引擎。其目的是为软件开发人员提供一个简单易用的工具包，以方便在目标系统中实现全文检索的功能。

2. Solr：其是Apache下的一个顶级开源项目，采用Java开发，基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展，并对索引、搜索性能进行了优化。

3. Elasticsearch：其是一个基于Apache Lucene(TM)的开源搜索引擎。其也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能，但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性，从而让全文搜索变得简单。

整个搜索的过程，可分为两个过程：索引过程和查询过程。

【索引过程】

索引过程是指对要搜索的原始内容进行索引，构建一个索引库。主要包括：确定原始内容 —> 采集文档 —> 创建文档 —> 分析文档 —> 索引文档。

1. 获得原始文档：原始文档是指要索引和搜索的内容。原始内容可以是互联网上的网页、数据库中的数据和磁盘上的文件等。

2. 信息采集：从互联网上、数据库、文件系统中等获取需要搜索的原始信息，这个过程是信息采集，目的是为了对原始内容进行索引。

3. 创建文档对象：获取原始内容的目的是为了索引，在索引前需要将原始内容创建成文档，文档中包括一个个域（Field），域中存储内容。比如，我们可以将磁盘上的一个文件当成一个document，document中包括一些Field（file_name文件名称、file_path文件路径、file_size文件大小、file_content文件内容），如下图：

这里写图片描述

4. 分析文档：将原始内容创建为包含域的文档，需要再对域中的内容进行分析，分析的过程是经过对原始文档提取单词、将字母转为小写、去除标点符号、去除停用词等过程生成的最终的语汇单元，可以将语汇单元理解为一个个单词。

5. 创建索引：对所有文档分析得出的语汇单元进行索引，索引的目的是为了搜索，最终要实现只搜索被索引的语汇单元从而找到Document。

以上过程，代码如下：

//创建索引
    @Test
    public void testIndex() throws Exception {
        // 1. 创建java工程，导入jar包
        // 2. 创建一个indexwriter对象
        // 1) 指定索引库的存放位置Directory对象
        Directory directory=FSDirectory.open(new File("D:\\temp\\index"));
// Directory directory = new RAMDirectory(); //保存索引到内存中 
        // 2) 指定一个分析器，对文档内容进行分析
        Analyzer analyzer=new StandardAnalyzer(); //官方推荐
        IndexWriterConfig config=new IndexWriterConfig(Version.LUCENE_4_10_3, analyzer);
        IndexWriter indexWriter=new IndexWriter(directory, config);
        // 4. 创建field对象，将field添加到document对象中
        File f=new File("D:\\Lucene");
        File[] listFiles = f.listFiles();
        for (File file : listFiles) {
            // 3. 创建document对象
            Document document=new Document();
            //文件名称
            String file_name = file.getName();
            Field fileNameField=new TextField("fileName", file_name, Store.YES);
            //文件大小
            long file_size = FileUtils.sizeOf(file);
            Field fileSizeField= new LongField("fileSize", file_size, Store.YES);
            //文件路径
            String file_path = file.getPath();
            Field filePathField=new StoredField("filePath", file_path);
            //文件内容
            String file_content = FileUtils.readFileToString(file);
            Field fileContentField=new TextField("fileContent", file_content, Store.YES);       
            document.add(fileNameField);
            document.add(fileSizeField);
            document.add(filePathField);
            document.add(fileContentField); 
            // 5. 使用indexwriter对象将document对象写入索引库，此过程进行索引创建，并将索引和document对象写入索引库。
            indexWriter.addDocument(document);
        }   
        // 6. 关闭indexwriter对象。
        indexWriter.close();
    }

【查询过程】

查询过程是指从索引过程中创建好的索引库进行查询，主要包括：用户通过搜索界面 —> 创建查询 —> 执行搜索，从索引库搜索 —> 渲染搜索结果。代码如下：

//查询索引
    @Test
    public void testSearch() throws Exception{
        // 1. 创建一个Directory对象，也就是索引库存放的位置
        Directory directory=FSDirectory.open(new File("D:\\temp\\index")); //磁盘 硬盘保存索引
        // 2. 创建一个indexReader对象，需要指定Directory对象
        IndexReader indexReader =DirectoryReader.open(directory);
        // 3. 创建一个indexsearcher对象，需要指定IndexReader对象
        IndexSearcher indexSearcher=new IndexSearcher(indexReader);
        // 4. 创建一个TermQuery对象，指定查询的域和查询的关键词
        Query query=new TermQuery(new Term("fileName","lucene.txt"));
        // 5. 执行查询
        TopDocs topDocs = indexSearcher.search(query, 2);
        // 6. 返回查询结果，遍历查询结果并输出
        ScoreDoc[] scoreDocs=topDocs.scoreDocs;
        for (ScoreDoc scoreDoc : scoreDocs) {
            int doc=scoreDoc.doc;
            Document document = indexSearcher.doc(doc);
            //文件名称
            String fileName = document.get("fileName");
            System.out.println(fileName);
            //文件内容
            String fileContent = document.get("fileContent");
            System.out.println(fileContent);
            //文件路径
            String filePath = document.get("filePath");
            System.out.println(filePath);
            //文件大小
            String fileSize = document.get("fileSize");
            System.out.println(fileSize);
            System.out.println("----------");
        }
        // 7. 关闭IndexReader对象
        indexReader.close();
    }