snowball相关内容

Lucene 标准分析器与 Snowball

刚刚开始使用 Lucene.Net.我使用标准分析器索引了 100,000 行,运行了一些测试查询,并注意到如果原始术语是单数,复数查询不会返回结果.我了解雪球分析器添加了词干支持,这听起来不错.但是,我想知道使用雪球超过标准的锣是否有任何缺点?跟着它走,我会失去什么吗?是否还有其他分析仪可供考虑? 解决方案 是的,通过使用 Snowball 等词干分析器,您会丢失有关文本原始形式的信息. ..
发布时间:2022-01-15 13:11:32 其他开发

tm 包中的词干文档不适用于过去时词

我有一个文件“check_text.txt",其中包含“说要制作".我想对它进行词干提取以获得“说说说做做".我尝试在 tm 包中使用 stemDocument ,如下所示,但只得到“said say say make made".有没有办法对过去时词进行词干提取?在现实世界的自然语言处理中是否有必要这样做?谢谢! filename = 'check_text.txt'con ..
发布时间:2022-01-02 17:37:29 其他开发

产生真实单词的词干算法

我需要选取一段文本并从中提取“标签"列表.其中大部分是非常简单的.但是,我现在需要一些帮助来阻止生成的单词列表以避免重复.示例:社区/社区 我使用了 Porter Stemmer 算法的实现(顺便说一下,我是用 PHP 编写的): http://tartarus.org/~martin/PorterStemmer/php.txt 这在一定程度上有效,但不会返回“真实"单词.上面的 ..
发布时间:2022-01-02 17:20:01 PHP

雪球阻止:定义区域

我正在尝试理解节流阀阻止算法.该算法使用两个区域R1和R2,它们的定义如下: R1是元音之后第一个非元音之后的区域,或者是 如果没有这样的非元音,则单词末尾的空区域. R2是R1中元音之后的第一个非元音之后的区域,或者 如果没有单词,则为单词末尾的空区域 非元音. http://snowball.tartarus.org/texts/r1r2.html 示例是 ..
发布时间:2020-05-18 01:02:39 其他开发

tm包中的stemDocment无法处理过去时词

我有一个文件"check_text.txt",其中包含"所说的说来做".我想对它执行词干以获得“说说说说"的意思.我尝试在tm包中使用stemDocument,如下所示,但只得到“说出来说得好"的意思.有没有办法对过去时词进行词干处理?在现实世界的自然语言处理中是否有必要这样做?谢谢! filename = 'check_text.txt' con ..
发布时间:2020-05-18 00:35:21 其他开发

产生实词的词干算法

我需要一段文本并从中提取“标签"列表.其中大多数是非常简单的.但是,我现在需要一些帮助来阻止生成的单词列表,以避免重复.示例:社区/社区 我使用了Porter Stemmer算法的实现(顺便说一下,我用PHP编写): http://tartarus.org/~martin/PorterStemmer/php.txt 这在某种程度上可行,但不会返回“真实"字词.上面的示例源于"co ..
发布时间:2020-05-18 00:30:01 PHP

是否有Porter2 stemmer的java实现

你知道Porter2词干分析器的任何java实现(或者用java编写的更好的词干分析器)吗?我知道这里有一个java版本的Porter(不是Porter2): http://tartarus.org/~martin/PorterStemmer/java.txt 但是 http://tartarus.org/~martin/PorterStemmer/ 作者提到Porter有点过时并建议 ..
发布时间:2018-12-04 12:09:14 Java开发

Lucene标准分析仪与雪球

刚开始使用Lucene.Net。我使用标准分析器对100,000行进行了索引,运行了一些测试查询,并注意到如果原始词汇是单数的,则多个查询不会返回结果。我了解雪球分析仪增加了支持支持,这听起来不错。但是,我想知道是否有任何缺点与雪球超过标准?我是否因此而失去任何东西?是否有任何其他分析仪在那里考虑? 解决方案 是的,通过使用诸如Snowball之类的词干分析器,原文的形式。例如,Snowb ..
发布时间:2018-04-16 16:18:35 其他数据库