“停止词语”英文名单? [英] "Stop words" list for English?

查看:165
本文介绍了“停止词语”英文名单?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在为一些英语文本生成一些统计数据,我想跳过一些不感兴趣的词,例如a和the。

I'm generating some statistics for some English-language text and I would like to skip uninteresting words such as "a" and "the".


  • 我在哪里可以找到这些无趣的单词列表?

  • 这些单词的列表是否与英语中最常用的单词列表相同?

更新:这些显然被称为停用词而非跳过单词。

update: these are apparently called "stop words" and not "skip words".

推荐答案

加入Google的神奇词汇是停止词汇。这会显示看似合理的清单

The magic word to put into Google is "stop words". This turns up a reasonable-looking list.

MySQL还有一个内置的停止列表单词,但这对我的口味来说太过全面了。例如,在我们的大学图书馆,我们遇到了问题,因为第三世界中的第三被认为是一个停用词。

MySQL also has a built-in list of stop words, but this is far too comprehensive to my tastes. For example, at our university library we had problems because "third" in "third world" was considered a stop word.

这篇关于“停止词语”英文名单?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆