stop-words - IT屋-程序员软件开发技术分享社区

使用 Lucene 和 Java 标记、删除停用词

我正在尝试使用 Lucene 从 txt 文件中标记和删除停用词.我有这个: public String removeStopWords(String string) throws IOException {设置stopWords = new HashSet();stopWords.add("a");stopWords.add("an");stopWords.add(" ..

发布时间：2022-01-15 13:13:38 java lucene nlp tokenize stop-words Java开发

在 Apache 的 Lucene 中使用默认和自定义停用词(奇怪的输出)

我正在使用 Apache 的 Lucene (8.6.3) 和以下 Java 8 代码: private static final String CONTENTS = "contents";final String text = "这是一个简短的测试！呸！"最终列表stopWords = Arrays.asList("short","test");final CharArraySet ..

发布时间：2022-01-15 13:02:45 java lucene stop-words Java开发

我可以自定义 Elastic Search 以使用我自己的停用词列表吗?

具体来说，我想为没有停用词列表的所有内容(例如谁)编制索引.弹性搜索是否足够灵活且易于更改? 解决方案默认情况下，elasticsearch 使用的分析器是一个标准分析器，带有默认的 Lucene 英语停用词.通过将以下内容添加到 elasticsearch.yml 文件，我已将 elasticsearch 配置为使用相同的分析器但没有停用词. # 索引设置指数:分析:分析仪:# 将 ..

发布时间：2022-01-15 12:49:35 lucene stop-words elasticsearch 其他开发

R 使用 %in% 从字符向量中删除停用词

我有一个包含字符串的数据框，我想从中删除停用词.我试图避免使用 tm 包，因为它是一个大型数据集，并且 tm 似乎运行速度有点慢.我正在使用 tm stopword 字典. 库(plyr)图书馆(tm)stopWords ..

发布时间：2022-01-02 17:53:46 r nlp subset tm stop-words 其他开发

为什么这些词被认为是停用词?

我没有自然语言处理方面的正式背景，想知道 NLP 方面的人是否可以对此有所了解.我正在使用 NLTK 库，我专门研究了这个包提供的停用词功能: 在 [80] 中:nltk.corpus.stopwords.words('english') 出[80]: ['我', '我', '我的',“我自己"，“我们"，“我们的"，“我们的"，“我们自己"、“你们"、“你们的"、“你们的"、“ ..

发布时间：2022-01-02 17:52:13 language-agnostic machine-learning nlp nltk stop-words AI人工智能

使用 NLTK 去除停用词

我正在尝试通过使用 nltk 工具包删除停用词来处理用户输入的文本，但是通过停用词删除，诸如“and"、“or"、“not"之类的词会被删除.我希望这些词在停用词删除过程后出现，因为它们是稍后将文本作为查询处理所需的运算符.我不知道哪些词可以作为文本查询中的运算符，我也想从我的文本中删除不需要的词. 解决方案我建议您创建自己的运算符词列表，从停用词列表中删除这些词.集合可以方便地相减，所 ..

发布时间：2022-01-02 17:11:37 python nlp nltk stop-words Python

“停用词"英文清单?

我正在为一些英语文本生成一些统计数据，我想跳过诸如“a"和“the"之类的无趣词. 在哪里可以找到这些无趣的单词的列表? 这些单词的列表是否与英语中最常用的单词列表相同? 更新:这些显然被称为“停用词"而不是“跳过词". 解决方案放入 Google 的神奇词是“停用词".这会产生一个看起来合理的列表. MySQL 还有一个内置的停用词列表，但这对我的口味来说太全面了. ..

发布时间：2021-12-21 23:40:55 language-agnostic indexing filtering stop-words nlp 其他开发

我想重置 mysql 中的停用词列表以进行全文搜索.我已经在我的系统中安装了 WAMP 服务器，它有 phpmyadmin 来访问 mysql.但我不知道如何在 phpmyadmin 中重置停用词.谁能告诉我怎么做. 我也http://dev.mysql.com/doc/refman/5.1/en/server-system-variables.html#sysvar_ft_stopword ..

发布时间：2021-12-20 14:15:59 mysql database search full-text-search stop-words 数据库

Java Arraylist按索引删除多个元素

这是我的代码: for (int i = 0; i 我有问题..删除元素后，所有索引总是改变，上面的循环太乱了. 举例说明:我有 54 个数据，但是在删除元素后上面的循环变得混乱.. 所以只检查了 50 个数据. 是否有其他方法或修复我的代码以按索引删除多个元素??元素索引对我来说非常重要，删除另一个具有相同索引的数组列表. 解决方案你需要记住的一件事是，当你使用 Ar ..

发布时间：2021-11-17 23:28:56 java android arraylist stop-words Java开发

Lucene 的 StopFilter 中使用的默认停用词列表是什么?

Lucene 有一个默认的停止过滤器 (http://lucene.apache.org/core/4_0_0/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html)，有谁知道列表中的单词是什么? 解决方案默认停用词来自 StopAnalyzer.ENGLISH_STOP_WORDS_SET，如源文件: “a ..

发布时间：2021-11-11 05:00:47 java apache lucene information-retrieval stop-words Java开发

Elasticsearch:使用关键字标记器索引字段但没有停用词

我正在寻找一种使用关键字标记化但没有停用词来搜索公司名称的方法. 例如:索引公司名称是“Hansel und Gretel Gmbh". 这里的“und"和“Gmbh"是公司名称的停用词. 如果搜索词是“Hansel Gretel"，则应该找到该文档，如果搜索词是“Hansel"，则不应找到任何文档.如果搜索词是“hansel gmbh"，也应该找到 no 文档. 我尝试在 ..

发布时间：2021-09-08 20:22:54 elasticsearch tokenize analyzer stop-words 其他开发

用户警告:您的 stop_words 可能与您的预处理不一致

我正在关注 this 文档聚类教程.作为输入，我提供了一个 txt 文件，可以在这里下载.它是 3 个其他 txt 文件的组合文件，使用 \n 分隔.创建 tf-idf 矩阵后，我收到此警告: ,,UserWarning: 你的 stop_words 可能与你的预处理不一致.标记停用词生成的标记 ['abov', 'afterward', 'alon', 'alreadi', 'alway' ..

发布时间：2021-09-06 19:45:45 vectorization text-processing tf-idf stop-words stemming 其他开发

(R) 关于 DocumentTermMatrix 中的停用词

我有一些关于 DocumentTermMatrix() 及其停用词的问题.我输入如下，但无法得到我想要的结果. text ..

发布时间：2021-09-06 19:43:44 text-mining tm stop-words 其他开发

在 R tm 中添加自定义停用词

我有一个使用 tm 包的 R 语料库.我正在应用 removeWords 函数来删除停用词 tm_map(abs, removeWords, stopwords("english")) 有没有办法将我自己的自定义停用词添加到此列表中? 解决方案 stopwords 只是为您提供了一个词向量，只需 c 结合您自己的词即可. tm_map(abs, removeWords, c(stop ..

发布时间：2021-09-06 19:40:53 r text-mining stop-words corpus tm 其他开发

从文本块中提取相关标签/关键字

我想要一个特定的实现，以便用户提供一个文本块，例如: "要求- 使用 Linux、Apache 2 的 LAMP 环境的工作知识，MySQL 5 和 PHP 5，- 了解 Web 2.0 标准- 熟悉 JSON- 使用框架、Zend、OOP 的实践经验- 跨浏览器 Javascripting、JQuery 等.- 了解子版本等版本控制软件最好." 我想要做的是自动选择相关关键字并创建标 ..

发布时间：2021-09-04 19:18:12 php javascript tags stop-words PHP

将单词添加到 scikit-learn 的 CountVectorizer 的停止列表

Scikit-learn 的 CountVectorizer 类允许您传递字符串 'english' 到参数 stop_words.我想在这个预定义列表中添加一些内容.谁能告诉我如何做到这一点? 解决方案根据源代码 sklearn.feature_extraction.text，完整列表(实际上是一个 frozenset，来自 stop_words) 的 ENGLISH_STOP_WOR ..

发布时间：2021-07-16 19:50:56 python scikit-learn stop-words Python

在 Python 中删除停用词的更快方法

我正在尝试从文本字符串中删除停用词: from nltk.corpus 导入停用词text = 'hello bye the hi'text = ' '.join([word for word in text.split() 如果单词不在 (stopwords.words('english'))]) 我正在处理 600 万个此类字符串，因此速度很重要.分析我的代码，最慢的部分是上面的几行，有没 ..

发布时间：2021-07-06 19:13:09 python regex stop-words Python

pyspark:如何在 spark 1.6.3 上使用法语配置 StopWordsRemover

我想知道如何在 spark 1.6.3 中使用法语配置 stopwordsremover. 我目前正在使用 pyspark. 感谢您的帮助. 最好的问候，解决方案看看 nltk包我用它来表示葡萄牙语单词: from pyspark.ml.feature import StopWordsRemover导入 nltknltk.download("停用词")... ..

发布时间：2021-06-24 20:43:20 pyspark stop-words 其他开发

检查当前单词是否接近字符串中的单词的有效方法是什么?

考虑以下示例: 示例 1: str1 = "哇...看起来棒极了"str2 = "看起来像 amazi" 你看到 amazi 接近于 amazing，str2 打错了，我想写一个程序来告诉我 amazi 接近 amazing 然后在 str2 我将用 amazing 替换 amazi> 示例 2: str1 = "看起来不错"str2 = "看起来不错" 在这种情况下，更新的 ..

发布时间：2021-06-14 20:26:12 python python-3.x string pattern-matching stop-words Python

从 nltk 中删除停用词后如何删除引号?

我从报纸上捕获了标题，我也从标题中删除了停用词，但是在删除停用词后，该词带有单引号，所以我不想要这些引号，为此我尝试了以下代码: from nltk.corpus 导入停用词博客帖子=[]stop = stopwords.words('english')+['.',',','--','\','?',')','(',':','\'','\'关于'，'"','-','}','{',你'-','a', ..

发布时间：2021-06-07 20:44:03 python-2.7 nltk stop-words 其他开发

stop-words相关内容