snowball - IT屋-程序员软件开发技术分享社区

Lucene 标准分析器与 Snowball

刚刚开始使用 Lucene.Net.我使用标准分析器索引了 100,000 行，运行了一些测试查询，并注意到如果原始术语是单数，复数查询不会返回结果.我了解雪球分析器添加了词干支持，这听起来不错.但是，我想知道使用雪球超过标准的锣是否有任何缺点?跟着它走，我会失去什么吗?是否还有其他分析仪可供考虑? 解决方案是的，通过使用 Snowball 等词干分析器，您会丢失有关文本原始形式的信息. ..

发布时间：2022-01-15 13:11:32 full-text-search lucene lucene.net nlp snowball 其他开发

制作词云，但使用组合词?

我正在尝试制作出版物关键字的词云.例如:教育数据挖掘；协作学习；计算机科学...等我目前的代码如下: KeywordsCorpus ..

发布时间：2022-01-02 17:54:55 r nlp tm word-cloud snowball 其他开发

tm 包中的词干文档不适用于过去时词

我有一个文件“check_text.txt"，其中包含“说要制作".我想对它进行词干提取以获得“说说说做做".我尝试在 tm 包中使用 stemDocument ，如下所示，但只得到“said say say make made".有没有办法对过去时词进行词干提取?在现实世界的自然语言处理中是否有必要这样做?谢谢！ filename = 'check_text.txt'con ..

发布时间：2022-01-02 17:37:29 r nlp tm stemming snowball 其他开发

产生真实单词的词干算法

我需要选取一段文本并从中提取“标签"列表.其中大部分是非常简单的.但是，我现在需要一些帮助来阻止生成的单词列表以避免重复.示例:社区/社区我使用了 Porter Stemmer 算法的实现(顺便说一下，我是用 PHP 编写的): http://tartarus.org/~martin/PorterStemmer/php.txt 这在一定程度上有效，但不会返回“真实"单词.上面的 ..

发布时间：2022-01-02 17:20:01 php nlp stemming snowball porter-stemmer PHP

如何正确使用stemDocument?

我已经阅读了这篇和这个问题，但是我还是没明白tm_mapstemDocument的用法/代码>.让我们按照这个例子: q17 ..

发布时间：2021-09-06 19:43:08 r text-mining tm stemming snowball 其他开发

雪球阻止:定义区域

我正在尝试理解节流阀阻止算法.该算法使用两个区域R1和R2，它们的定义如下: R1是元音之后第一个非元音之后的区域，或者是如果没有这样的非元音，则单词末尾的空区域. R2是R1中元音之后的第一个非元音之后的区域，或者如果没有单词，则为单词末尾的空区域非元音. http://snowball.tartarus.org/texts/r1r2.html 示例是 ..

发布时间：2020-05-18 01:02:39 nlp stemming linguistics porter-stemmer snowball 其他开发

制作wordcloud，但结合单词?

我正在努力使出版物关键字构成一个词云.例如: 教育数据挖掘；合作学习；计算机科学...等我当前的代码如下: KeywordsCorpus ..

发布时间：2020-05-18 00:54:29 r nlp tm word-cloud snowball 其他开发

tm包中的stemDocment无法处理过去时词

我有一个文件"check_text.txt"，其中包含"所说的说来做".我想对它执行词干以获得“说说说说"的意思.我尝试在tm包中使用stemDocument，如下所示，但只得到“说出来说得好"的意思.有没有办法对过去时词进行词干处理?在现实世界的自然语言处理中是否有必要这样做?谢谢！ filename = 'check_text.txt' con ..

发布时间：2020-05-18 00:35:21 r nlp tm stemming snowball 其他开发

产生实词的词干算法

我需要一段文本并从中提取“标签"列表.其中大多数是非常简单的.但是，我现在需要一些帮助来阻止生成的单词列表，以避免重复.示例:社区/社区我使用了Porter Stemmer算法的实现(顺便说一下，我用PHP编写): http://tartarus.org/~martin/PorterStemmer/php.txt 这在某种程度上可行，但不会返回“真实"字词.上面的示例源于"co ..

发布时间：2020-05-18 00:30:01 php nlp stemming snowball porter-stemmer PHP

是否有Porter2 stemmer的java实现

你知道Porter2词干分析器的任何java实现（或者用java编写的更好的词干分析器）吗？我知道这里有一个java版本的Porter（不是Porter2）： http://tartarus.org/~martin/PorterStemmer/java.txt 但是 http://tartarus.org/~martin/PorterStemmer/ 作者提到Porter有点过时并建议 ..

发布时间：2018-12-04 12:09:14 java porter-stemmer snowball Java开发

Lucene标准分析仪与雪球

刚开始使用Lucene.Net。我使用标准分析器对100,000行进行了索引，运行了一些测试查询，并注意到如果原始词汇是单数的，则多个查询不会返回结果。我了解雪球分析仪增加了支持支持，这听起来不错。但是，我想知道是否有任何缺点与雪球超过标准？我是否因此而失去任何东西？是否有任何其他分析仪在那里考虑？解决方案是的，通过使用诸如Snowball之类的词干分析器，原文的形式。例如，Snowb ..

发布时间：2018-04-16 16:18:35 full-text-search lucene lucene.net nlp snowball 其他数据库

snowball相关内容