如何删除java中的停用词? [英] How to remove stop words in java?

查看:322
本文介绍了如何删除java中的停用词?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我想删除java中的停用词。

I want to remove stop words in java.

所以,我从文本文件中读取停用词。

So, I read stop words from text file.

和商店Set

Set<String> stopWords = new LinkedHashSet<String>();
BufferedReader br = new BufferedReader(new FileReader("stopwords.txt"));
        String words = null;
        while( (words = br.readLine()) != null) {
            stopWords.add(words.trim());
            }
        br.close();

而且,我读了另一个文本文件。

And, I read another text file.

所以,我想删除文本文件中的字符串。

So, I wanna remove to duplicate string in text file.

我该怎么办?

推荐答案

你想从文件中删除重复的单词,下面是相同的高级逻辑。

You want to remove duplicate words from file, below is the high level logic for same.


  • 读取文件

  • 循环浏览文件内容(即一次一行)

    • 根据空格为该行设置字符串标记符

    • 将每个令牌添加到您的集合中。这将确保每个单词只有一个条目。

    • 关闭文件

    • Read File
    • Loop through file content(i.e one line at a time)
      • Have string tokenizer for that line based on space
      • Add each each token to your set. This will make sure that you have only one entry per word.
      • Close file

      现在你已经设置了包含文件的所有唯一字。

      Now you have set that contains all the unique word of file.

      这篇关于如何删除java中的停用词?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆