Java中的字符串标记化(大文本) [英] String tokenization in java (LARGE text)

查看：210 发布时间：2020/4/29 3:26:46 java string tokenize stringtokenizer large-data

本文介绍了Java中的字符串标记化(大文本)的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我有这么大的文字(读大).我需要标记每个单词，在每个非字母上定界.我使用StringTokenizer一次读取一个单词.但是，正如我在研究如何编写定界符字符串(每个非字母")而不是执行以下操作一样:

I have this large text (read LARGE). I need to tokenize every word, delimit on every non-letter. I used StringTokenizer to read one word at a time. However, as I was researching how to write the delimiter string ("every non-letter") instead of doing something like:

new StringTokenizer(text, "\" ();,.'[]{}!?:""…\n\r0123456789 [etc etc]");

我发现每个人基本上都讨厌StringTokenizer(为什么?).

I found that everyone basically hates StringTokenizer (why?).

那么，我该怎么用呢?不要建议使用String.split，因为它会复制我的大文本.我需要逐字检查文本，并在每个非字母上定界.自己建造东西会更容易，还是有一些最佳实践来解决这个问题?

So, what can I use instead? Dont suggest String.split as it will duplicate my large text. I need to go through the text word by word and delimit on every non-letter. Is it easier to build something on my own or is there some best practice way to confront this problem?

提前谢谢！

Java中的字符串标记化(大文本) [英] String tokenization in java (LARGE text)

问题描述

推荐答案

相关文章

Java开发最新文章

热门教程

热门工具

登录关闭

Java中的字符串标记化(大文本) [英] String tokenization in java (LARGE text)

问题描述

推荐答案

相关文章

Java开发最新文章

热门教程

热门工具

登录 关闭

登录关闭