Lucene教程

Lucene - 分析

在前面的一章中，我们已经看到Lucene使用 IndexWriter 使用 Analyzer 分析 Document 然后根据需要创建/打开/编辑索引.在本章中，我们将讨论分析过程中使用的各种类型的Analyzer对象和其他相关对象.了解分析过程以及分析器如何工作将使您深入了解Lucene如何索引文档.

以下是我们将在适当时候讨论的对象列表.

S.No.	Class&描述
1	Token Token表示文档中的文本或单词，其中包含元数据等相关详细信息(位置，起始偏移，结束偏移，令牌类型及其位置增量.)
2	TokenStream TokenStream是分析过程的输出，它包含一系列标记.它是一个抽象类.
3	Analyzer 这是一个抽象基类对于每种类型的分析器.
4	WhitespaceAnalyzer 此分析器拆分基于空格的文档中的文本.
5	SimpleAnalyzer 此分析器拆分基于非字母字符的文档中的文本，并将文本放在小写中.
6	StopAnalyzer 此分析器的工作原理与SimpleAnalyzer一样，并删除常用词，如'a'，'an'，'the'，等.
7	StandardAnalyzer 这是最复杂的分析仪，能够处理名称，电子邮件地址等.它会降低每个令牌的大小，并删除常用的单词和标点符号(如果有的话).

Lucene教程

Lucene - 分析

相关菜鸟教程