“停止词语”英文名单? [英] "Stop words" list for English?
本文介绍了“停止词语”英文名单?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我正在为一些英语文本生成一些统计数据,我想跳过一些不感兴趣的词,例如a和the。
I'm generating some statistics for some English-language text and I would like to skip uninteresting words such as "a" and "the".
- 我在哪里可以找到这些无趣的单词列表?
- 这些单词的列表是否与英语中最常用的单词列表相同?
更新:这些显然被称为停用词而非跳过单词。
update: these are apparently called "stop words" and not "skip words".
推荐答案
加入Google的神奇词汇是停止词汇。这会显示看似合理的清单。
The magic word to put into Google is "stop words". This turns up a reasonable-looking list.
MySQL还有一个内置的停止列表单词,但这对我的口味来说太过全面了。例如,在我们的大学图书馆,我们遇到了问题,因为第三世界中的第三被认为是一个停用词。
MySQL also has a built-in list of stop words, but this is far too comprehensive to my tastes. For example, at our university library we had problems because "third" in "third world" was considered a stop word.
这篇关于“停止词语”英文名单?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文