snowball相关内容
刚刚开始使用 Lucene.Net.我使用标准分析器索引了 100,000 行,运行了一些测试查询,并注意到如果原始术语是单数,复数查询不会返回结果.我了解雪球分析器添加了词干支持,这听起来不错.但是,我想知道使用雪球超过标准的锣是否有任何缺点?跟着它走,我会失去什么吗?是否还有其他分析仪可供考虑? 解决方案 是的,通过使用 Snowball 等词干分析器,您会丢失有关文本原始形式的信息.
..
我正在尝试制作出版物关键字的词云.例如:教育数据挖掘;协作学习;计算机科学...等 我目前的代码如下: KeywordsCorpus
..
我有一个文件“check_text.txt",其中包含“说要制作".我想对它进行词干提取以获得“说说说做做".我尝试在 tm 包中使用 stemDocument ,如下所示,但只得到“said say say make made".有没有办法对过去时词进行词干提取?在现实世界的自然语言处理中是否有必要这样做?谢谢! filename = 'check_text.txt'con
..
我需要选取一段文本并从中提取“标签"列表.其中大部分是非常简单的.但是,我现在需要一些帮助来阻止生成的单词列表以避免重复.示例:社区/社区 我使用了 Porter Stemmer 算法的实现(顺便说一下,我是用 PHP 编写的): http://tartarus.org/~martin/PorterStemmer/php.txt 这在一定程度上有效,但不会返回“真实"单词.上面的
..
我已经阅读了这篇和这个问题,但是我还是没明白tm_mapstemDocument的用法/代码>.让我们按照这个例子: q17
..
我正在尝试理解节流阀阻止算法.该算法使用两个区域R1和R2,它们的定义如下: R1是元音之后第一个非元音之后的区域,或者是 如果没有这样的非元音,则单词末尾的空区域. R2是R1中元音之后的第一个非元音之后的区域,或者 如果没有单词,则为单词末尾的空区域 非元音. http://snowball.tartarus.org/texts/r1r2.html 示例是
..
我正在努力使出版物关键字构成一个词云.例如: 教育数据挖掘;合作学习;计算机科学...等 我当前的代码如下: KeywordsCorpus
..
我有一个文件"check_text.txt",其中包含"所说的说来做".我想对它执行词干以获得“说说说说"的意思.我尝试在tm包中使用stemDocument,如下所示,但只得到“说出来说得好"的意思.有没有办法对过去时词进行词干处理?在现实世界的自然语言处理中是否有必要这样做?谢谢! filename = 'check_text.txt' con
..
我需要一段文本并从中提取“标签"列表.其中大多数是非常简单的.但是,我现在需要一些帮助来阻止生成的单词列表,以避免重复.示例:社区/社区 我使用了Porter Stemmer算法的实现(顺便说一下,我用PHP编写): http://tartarus.org/~martin/PorterStemmer/php.txt 这在某种程度上可行,但不会返回“真实"字词.上面的示例源于"co
..
你知道Porter2词干分析器的任何java实现(或者用java编写的更好的词干分析器)吗?我知道这里有一个java版本的Porter(不是Porter2): http://tartarus.org/~martin/PorterStemmer/java.txt 但是 http://tartarus.org/~martin/PorterStemmer/ 作者提到Porter有点过时并建议
..
刚开始使用Lucene.Net。我使用标准分析器对100,000行进行了索引,运行了一些测试查询,并注意到如果原始词汇是单数的,则多个查询不会返回结果。我了解雪球分析仪增加了支持支持,这听起来不错。但是,我想知道是否有任何缺点与雪球超过标准?我是否因此而失去任何东西?是否有任何其他分析仪在那里考虑? 解决方案 是的,通过使用诸如Snowball之类的词干分析器,原文的形式。例如,Snowb
..