Lucene - 分析

在前面的一章中,我们已经看到Lucene使用 IndexWriter 使用 Analyzer 分析 Document 然后根据需要创建/打开/编辑索引.在本章中,我们将讨论分析过程中使用的各种类型的Analyzer对象和其他相关对象.了解分析过程以及分析器如何工作将使您深入了解Lucene如何索引文档.

以下是我们将在适当时候讨论的对象列表.

S.No.Class&描述
1Token

Token表示文档中的文本或单词,其中包含元数据等相关详细信息(位置,起始偏移,结束偏移,令牌类型及其位置增量.)

2TokenStream

TokenStream是分析过程的输出,它包含一系列标记.它是一个抽象类.

3Analyzer

这是一个抽象基类对于每种类型的分析器.

4WhitespaceAnalyzer

此分析器拆分基于空格的文档中的文本.

5SimpleAnalyzer

此分析器拆分基于非字母字符的文档中的文本,并将文本放在小写中.

6StopAnalyzer

此分析器的工作原理与SimpleAnalyzer一样,并删除常用词,如'a','an','the',等.

7StandardAnalyzer

这是最复杂的分析仪,能够处理名称,电子邮件地址等.它会降低每个令牌的大小,并删除常用的单词和标点符号(如果有的话).