stemming相关内容

找不到Python、Stemmer

我从GitHub获得此代码,此代码将在64位Windows计算机上执行。 以下是我收到的错误: 回溯(最近一次调用): 文件“new.py”,第2行,中 导入词干分析器 ModuleNotFoundError:没有名为‘stemmer’的模块 import math import stemmer def irange(sequence): return zip(rang ..
发布时间:2022-03-31 20:50:34 其他开发

Stemming - 代码示例或开源项目?

词干是标记系统所需要的.我用delicious,我没有时间管理和修剪我的标签.我对我的博客更加小心,但它并不完美.我为嵌入式系统编写软件,如果它们包含词干提取功能,它们会更加实用(对用户有帮助). 例如: 解析 解析器 解析 对于我将它们放入的任何系统都应该具有相同的含义. 理想情况下,某个地方有一个获得 BSD 许可的词干分析器,但如果没有,我在哪里可以学习常用的算法和技 ..
发布时间:2022-01-18 21:23:10 其他开发

Lucene 词干分离器的区别:EnglishStemmer、PorterStemmer、LovinsStemmer

有没有人比较过来自 Lucene 的这些词干分析器(包 org.tartarus.snowball.ext):英语Stemmer、PorterStemmer、LovinsStemmer?它们背后的算法的优点/缺点是什么?什么时候应该使用它们?或者也许有更多的算法可用于英语单词词干提取? 谢谢. 解决方案 Lovins 词干分析器是一个 非常古老的算法,没有太多实际用途,因为 Port ..
发布时间:2022-01-15 12:51:07 Java开发

具有词干提取功能的标准分析器

有没有办法将 PorterStemFilter 集成到 Lucene 中的 StandardAnalyzer 中,或者我必须复制/粘贴 StandardAnalyzers 源代码,然后添加过滤器,因为 StandardAnalyzer 被定义为最终类.有没有更聪明的办法? 另外,如果我不想考虑数字,我该如何实现? 谢谢 解决方案 如果你想用这个组合进行英文文本分析,那么你应该使 ..
发布时间:2022-01-15 12:50:59 其他开发

Lucene 希伯来语分析器

有人知道是否存在吗? 我已经在谷歌上搜索了几个月... 谢谢 解决方案 更新 HebMorph 出于对您的问题的好奇,我联系了 Itamar Syn-Hershko,他大约一年前在 Lucene 邮件列表中很活跃,当时他正在为 Lucene 开发希伯来语分析器.我问他是否完成了他的分析仪.以下是他回应中的一些相关内容: 长话短说,不,我没有.没有像样的免费/开源希 ..
发布时间:2022-01-15 12:48:27 其他开发

使用 Lucene 提取英语单词

我正在一个 Java 应用程序中处理一些英文文本,我需要对它们进行词干处理.例如,从文本“amenities/amenity"我需要得到“amenit". 函数如下: String stemTerm(String term){...} 我找到了 Lucene Analyzer,但它看起来太复杂了,无法满足我的需要.http://lucene.apache.org/java/2_2_0/a ..
发布时间:2022-01-15 12:22:15 Java开发

需要一个 python 模块来提取文本文档

我需要一个好的 python 模块来在预处理阶段提取文本文档. 我找到了这个 http://pypi.python.org/pypi/PyStemmer/1.0.1 但是我在提供的链接中找不到文档. 我知道在哪里可以找到文档或任何其他好的词干算法,请帮忙. 解决方案 你可能想试试 NLTK>>>从 nltk 进口 PorterStemmer>>>PorterStem ..
发布时间:2022-01-02 17:51:29 Python

Python 词干提取(使用 Pandas 数据框)

我创建了一个包含要词干的句子的数据框.我想使用 Snowballstemmer 来通过我的分类算法获得更高的准确性.我怎样才能做到这一点? 将pandas导入为pd从 nltk.stem.snowball 导入 SnowballStemmer# 使用英语词干分析器.词干 = SnowballStemmer(“英语")# 需要词干的句子.data = [“程序员使用编程语言编写程序",“我的代码正 ..
发布时间:2022-01-02 17:47:07 Python

Stemming - 代码示例还是开源项目?

词干是标记系统所需要的.我使用美味,我没有时间管理和修剪我的标签.我对我的博客更加小心,但它并不完美.我为嵌入式系统编写软件,如果它们包含词干提取功能,将会更加实用(对用户有帮助). 例如: 解析 解析器 解析 对于我将它们放入的任何系统都应该具有相同的含义. 理想情况下,某处有一个 BSD 许可的词干提取器,但如果没有,我在哪里可以学习常用的算法和技术? 除了 BS ..
发布时间:2022-01-02 17:44:26 其他开发

tm 包中的词干文档不适用于过去时词

我有一个文件“check_text.txt",其中包含“说要制作".我想对它进行词干提取以获得“说说说做做".我尝试在 tm 包中使用 stemDocument ,如下所示,但只得到“said say say make made".有没有办法对过去时词进行词干提取?在现实世界的自然语言处理中是否有必要这样做?谢谢! filename = 'check_text.txt'con ..
发布时间:2022-01-02 17:37:29 其他开发

你能以编程方式检测英语单词的复数形式,并推导出单数形式吗?

给定一些(英语)单词,我们假设它是复数,是否可以推导出单数形式?如果可能,我想避免查找/字典表. 一些例子: 示例 -> 示例一个简单的“s"后缀Glitch -> Glitches 'es' 后缀,与上面相反国家 -> 国家“ies"后缀.绵羊 -> 绵羊没有变化:不确定值的可能回退 或者,这似乎是一个相当详尽的列表.> 对x 语言的库的建议是好的,只要它们是开源的(即,以便有人 ..
发布时间:2022-01-02 17:31:37 其他开发

用于从输入文本中提取关键字的 Java 库

我正在寻找一个 Java 库来从文本块中提取关键字. 流程应该如下: 停止词清理 -> 词干提取 -> 根据英语语言学统计信息搜索关键字 - 意思是如果一个词在文本中出现的次数比在英语语言中出现的次数多于它作为候选关键字的概率. 是否有执行此任务的库? 解决方案 这是一个使用 Apache Lucene.我没有使用上一个版本,而是 3.6.2 one,因为这是我最了解的. ..
发布时间:2022-01-02 17:20:43 Java开发

产生真实单词的词干算法

我需要选取一段文本并从中提取“标签"列表.其中大部分是非常简单的.但是,我现在需要一些帮助来阻止生成的单词列表以避免重复.示例:社区/社区 我使用了 Porter Stemmer 算法的实现(顺便说一下,我是用 PHP 编写的): http://tartarus.org/~martin/PorterStemmer/php.txt 这在一定程度上有效,但不会返回“真实"单词.上面的 ..
发布时间:2022-01-02 17:20:01 PHP

我如何进行词干或词形还原?

我尝试过 PorterStemmer 和 Snowball,但都不能处理所有单词,缺少一些非常常见的单词. 我的测试词是:“cats running running cactus cactuses cacti community community",并且两者都做对了不到一半. 另见: 产生真实单词的词干算法 词干 - 代码示例还是开源项目? 解决方案 如果您了解 Py ..
发布时间:2022-01-02 17:12:41 其他开发

如何在 solr 中索引带有前缀的单词?

我使用 solr 3.3 来索引我的文件,我想要带有后缀的 solr 索引词,例如我想索引像颜色一样的彩色,当我搜索颜色时,solr 显示任何具有彩色的文档. 解决方案 您需要对现场进行分析. 词干 - 它是一种字典.这将减少索引和搜索到其词根的单词. 例如如果搜索到任何单词,颜色、颜色、颜色将与您的搜索匹配. 在某些情况下,上述词干提取不起作用. 您可以使用 Synony ..
发布时间:2021-12-30 08:52:57 其他开发

使用 R 文本分析词干

我正在使用 TM 包进行大量分析.我最大的问题之一与词干和类似词干的转换有关. 假设我有几个与会计相关的术语(我知道拼写问题). 提取词干后,我们有: 账户 ->帐户帐户 ->帐户会计 ->帐户会计 ->帐户帐户 ->帐户帐户 ->帐户帐户 ->帐户 结果:3 个字词(帐户、帐户、帐户),其中我希望有 1 个(帐户),因为所有这些都与同一个字词相关. 1) 纠正拼写是可能的,但我 ..
发布时间:2021-12-22 20:04:28 其他开发