在前面的一章中,我们已经看到Lucene使用 IndexWriter 使用 Analyzer 分析 Document 然后根据需要创建/打开/编辑索引.在本章中,我们将讨论分析过程中使用的各种类型的Analyzer对象和其他相关对象.了解分析过程以及分析器如何工作将使您深入了解Lucene如何索引文档.
以下是我们将在适当时候讨论的对象列表.
S.No. | Class&描述 |
---|---|
1 | Token Token表示文档中的文本或单词,其中包含元数据等相关详细信息(位置,起始偏移,结束偏移,令牌类型及其位置增量.) |
2 | TokenStream TokenStream是分析过程的输出,它包含一系列标记.它是一个抽象类. |
3 | Analyzer 这是一个抽象基类对于每种类型的分析器. |
4 | WhitespaceAnalyzer 此分析器拆分基于空格的文档中的文本. |
5 | SimpleAnalyzer 此分析器拆分基于非字母字符的文档中的文本,并将文本放在小写中. |
6 | StopAnalyzer 此分析器的工作原理与SimpleAnalyzer一样,并删除常用词,如'a','an','the',等. |
7 | StandardAnalyzer 这是最复杂的分析仪,能够处理名称,电子邮件地址等.它会降低每个令牌的大小,并删除常用的单词和标点符号(如果有的话). |