我是不是应该既执行列姆化,又执行词干删除? [英] Should I perform both lemmatization and stemming?

查看:4
本文介绍了我是不是应该既执行列姆化,又执行词干删除?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在用Python语言编写一个文本分类系统。以下是我为规范每个令牌所做的工作:

lem, stem = WordNetLemmatizer(), PorterStemmer()
for doc in corpus:
    for word in doc:
        lemma = stem.stem(lem.lemmatize(word))

我不想只用词汇化的原因是因为我注意到WordNetLemmatizer没有处理一些常见的词尾变化。例如,对于副词,lem.lemmatize('walking')返回walking

既执行词干处理又执行列举化是否明智?还是说这是多余的?研究人员通常只做其中的一个,而不是两个都做吗?

推荐答案

在我看来,同时执行词干分析和词干分析,或者只执行一个操作会产生非常微小的差异,但我建议只使用词干分析,因为词干分析有时需要‘pos’才能更有代表性地执行。

例如,如果您想要词汇化"Better",则应显式指定pos:print(lemmatzer.lemmatze("Better",pos="a"))

如果未提供,则默认为"名词"

这篇关于我是不是应该既执行列姆化,又执行词干删除?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆