我是不是应该既执行列姆化,又执行词干删除? [英] Should I perform both lemmatization and stemming?
本文介绍了我是不是应该既执行列姆化,又执行词干删除?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我正在用Python语言编写一个文本分类系统。以下是我为规范每个令牌所做的工作:
lem, stem = WordNetLemmatizer(), PorterStemmer()
for doc in corpus:
for word in doc:
lemma = stem.stem(lem.lemmatize(word))
我不想只用词汇化的原因是因为我注意到WordNetLemmatizer
没有处理一些常见的词尾变化。例如,对于副词,lem.lemmatize('walking')
返回walking
。
既执行词干处理又执行列举化是否明智?还是说这是多余的?研究人员通常只做其中的一个,而不是两个都做吗?
推荐答案
在我看来,同时执行词干分析和词干分析,或者只执行一个操作会产生非常微小的差异,但我建议只使用词干分析,因为词干分析有时需要‘pos’才能更有代表性地执行。
例如,如果您想要词汇化"Better",则应显式指定pos:print(lemmatzer.lemmatze("Better",pos="a"))
如果未提供,则默认为"名词"
这篇关于我是不是应该既执行列姆化,又执行词干删除?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文