如何删除java中的停用词? [英] How to remove stop words in java?
本文介绍了如何删除java中的停用词?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我想删除java中的停用词。
I want to remove stop words in java.
所以,我从文本文件中读取停用词。
So, I read stop words from text file.
和商店Set
Set<String> stopWords = new LinkedHashSet<String>();
BufferedReader br = new BufferedReader(new FileReader("stopwords.txt"));
String words = null;
while( (words = br.readLine()) != null) {
stopWords.add(words.trim());
}
br.close();
而且,我读了另一个文本文件。
And, I read another text file.
所以,我想删除文本文件中的字符串。
So, I wanna remove to duplicate string in text file.
我该怎么办?
推荐答案
你想从文件中删除重复的单词,下面是相同的高级逻辑。
You want to remove duplicate words from file, below is the high level logic for same.
- 读取文件
- 循环浏览文件内容(即一次一行)
- 根据空格为该行设置字符串标记符
- 将每个令牌添加到您的集合中。这将确保每个单词只有一个条目。
- 关闭文件
- Read File
- Loop through file content(i.e one line at a time)
- Have string tokenizer for that line based on space
- Add each each token to your set. This will make sure that you have only one entry per word.
- Close file
现在你已经设置了包含文件的所有唯一字。
Now you have set that contains all the unique word of file.
这篇关于如何删除java中的停用词?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文