lemmatization相关内容
我目前将Spacy用于NLP目的(主要是词例化和标记化)。使用的模型是en-core-web-sm(2.1.0)。 运行以下代码以从查询中检索单词“Cleaned”的列表 import spacy nlp = spacy.load("en_core_web_sm") doc = nlp(query) list_words = [] for token in doc: if to
..
我有一个Python Pandas DataFrame,其中我需要对其中两列中的单词进行词汇化。我正在使用Spacy进行此操作。 import spacy nlp = spacy.load("en") 我正在尝试使用基于此示例的词汇化(它工作得非常好): doc3 = nlp(u"this is spacy lemmatize testing. programming books
..
我已成功检索到通过其他语义关系连接到基本同义词集的同义词集,如下所示: wn.synset('good.a.01').also_sees()出[63]:[Synset('best.a.01'),Synset('better.a.01'),Synset('favorable.a.01'),Synset('good.a.03'),Synset('obedient.a.01'),Synset('可敬
..
我不是一个[计算]语言学,所以请原谅我在这个话题上的晚饭. 根据维基百科,词形还原被定义为: 语言学中的词形还原(或词形还原)是将单词的不同屈折形式组合在一起的过程,以便将它们作为单个项目进行分析. 现在我的问题是,集合 {am, is, are} 中任何成员的词形还原版本都应该是“be"吗?如果没有,为什么不呢? 第二个问题:我如何在 R 或 python 中获得它?我尝
..
我正在为 ORM 准备一些表名,我想将复数表名转换为单个实体名.我唯一的问题是找到一种可靠的算法.这就是我现在正在做的事情: 如果一个词以-ies结尾,我用-y 替换结尾如果一个词以 -es 结尾,我会删除这个结尾.然而,这并不总是有效 - 例如,它将 Types 替换为 Typ 否则,我只是删除尾随的 -s 有谁知道更好的算法吗? 解决方案 这些都是一般规则(和好的规则)
..
以下代码打印出leaf: from nltk.stem.wordnet import WordNetLemmatizerlem = WordNetLemmatizer()打印(lem.lemmatize('叶')) 这可能准确,也可能不准确,具体取决于周围环境,例如玛丽离开房间 vs. 露珠从树叶上落下.我如何告诉 NLTK 在考虑周围上下文的情况下对单词进行词形还原? 解决方案 TL
..
输入词是独立的,不是句子的一部分,但我想获得它所有可能的引理,就好像输入词在不同的句子中一样,带有所有可能的词性标签.我也想得到单词引理的查找版本. 我为什么要这样做? 我已经从所有文档中提取了引理,并且还计算了引理之间的依赖链接的数量.我已经使用 en_core_web_sm 完成了这两项工作.现在,给定一个输入词,我想返回与输入词的所有可能引理链接最频繁的引理. 简而言之,我
..
给定一些(英语)单词,我们假设它是复数,是否可以推导出单数形式?如果可能,我想避免查找/字典表. 一些例子: 示例 -> 示例一个简单的“s"后缀Glitch -> Glitches 'es' 后缀,与上面相反国家 -> 国家“ies"后缀.绵羊 -> 绵羊没有变化:不确定值的可能回退 或者,这似乎是一个相当详尽的列表.> 对x 语言的库的建议是好的,只要它们是开源的(即,以便有人
..
对于词形还原,spacy 有一个单词列表:形容词, 副词, 动词... 还列出了例外情况: adverbs_irreg... 对于常规的,有一组 规则 让我们以“更宽"这个词为例 因为它是一个形容词,所以词形还原的规则应该来自这个列表: ADJECTIVE_RULES = [["呃", ""],[“美东时间", ""],["er", "e"],["est", "e"]] 据我所知,
..
我什么时候使用每个? 另外……NLTK 词形还原是否依赖于词性?如果是这样不是更准确吗? 解决方案 简短而密集:http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html 词干提取和词形还原的目标都是将一个词的屈折形式和有时派生相关的形式减少到一个共同的基本形式. 然
..
我尝试过 PorterStemmer 和 Snowball,但都不能处理所有单词,缺少一些非常常见的单词. 我的测试词是:“cats running running cactus cactuses cacti community community",并且两者都做对了不到一半. 另见: 产生真实单词的词干算法 词干 - 代码示例还是开源项目? 解决方案 如果您了解 Py
..
有谁知道如何解决 TreeTagger 中的这个文件读取错误,TreeTagger 是一种常用的自然语言处理工具,用于 POS 标记、词形还原和块句子? alvas@ikoma:~/treetagger$ echo 'Hello world!'|cmd/tree-tagger-english读取参数...错误:无法打开阅读:/home/alvas/treetagger/lib/english.p
..
我有一组文档,我想将它们转换成这样的形式,这样我就可以计算这些文档中单词的 tfidf(这样每个文档都由 tfidf 数字向量表示). 我认为调用 WordNetLemmatizer.lemmatize(word) 和 PorterStemmer 就足够了——但所有的“有"、“有"、“有"等都没有被词形还原器转换为“有"——并且它也适用于其他词.然后我读到,我应该为 lemmatizer 提
..
一般来说,在自然语言处理中,我们想要得到一个token的lemma. 例如,我们可以使用 wordnet 词形还原将“eaten"映射到“eat". python中是否有任何工具可以将引理反演为某种形式? 例如,我们将 'go' 映射到 'gone' 给定目标形式 'eaten'. PS:有人提到我们必须存储这样的映射.如何在 Python 中取消词干?> 解决方案 将
..
我正在研究 NLP 预处理.在某些时候,我想实现一个上下文敏感的词嵌入,作为一种辨别词义的方式,我正在考虑使用 BERT 的输出来做到这一点.我注意到 BERT 使用 WordPiece 标记化(例如,“播放"->“播放"+“##ing"). 现在,我使用标准分词器对文本进行预处理,该分词器在空格/一些标点符号上拆分,然后我有一个词形还原器(“播放"->“播放").我想知道 WordPiec
..
我已经对该代码测试了一个句子,我想对其进行转换,以便可以使整列的词素化,其中每一行包含单词而没有标点符号,例如: import wordnet, nltk nltk.download('wordnet') from nltk.stem import WordNetLemmatizer from nltk.corpus import wordnet import pandas as pd
..
您知道任何足够大的lemmatizer数据库,它为以下示例单词返回正确的结果: geese: goose plantes: //not found Wordnet的形态分析器还不够,因为它给出了以下不正确的结果: geese: //not found plantes: plant 解决方案 MorphAdorner 似乎更好,但是它仍然发现“植物"的错误结果 plant
..
我是Pandas的初学者,我试图弄清楚如何对数据框的单个列进行定标.以下面的示例为例(这是我想对词进行(非)常用词去除后的一些文本): 0个好的需求发生变化,自然酿造出纯天然啤酒... 有1个新的喜欢的人给了惊喜,发现他们... 2个最喜欢的红酱享受强大的单宁ok拉... 3种品质出色的1800年代21世纪尝试饮料... 4红第一次尝试恋爱100完美融合...
..
我有一个列表,其中包含我要定格的字符串.尽管我可以对所有字符串进行去词素化,但是我仍然很难以与我输入到去词素化器中相同的列表格式返回去词素化的字符串. 对每种输出进行某种类型的处理,我得到了一个unicode和str对象.我尝试将unicode转换为字符串,并尝试将字符串连接到列表,但没有运气. 下面是可复制的代码: typea = ['colors', 'caresses',
..
我正在尝试使用wordnet库对R中的文档语料库进行词法模糊处理.这是代码: corpus.documents
..