如何拆分日语文本? [英] How to split Japanese text?
本文介绍了如何拆分日语文本?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
使用 Java 拆分日语文本的最佳方法是什么?例如,对于以下文本:
What is the best way of splitting Japanese text using Java? For Example, for the below text:
こんにちは。私の名前はオバマです。私はアメリカに行く。
我需要以下输出:
こんにちは
私の名前はオバマです
私はアメリカに行く
可以使用 Kuromoji 吗?
Is it possible using Kuromoji?
推荐答案
您可以使用 java.text.BreakIterator.
You can use java.text.BreakIterator.
String TEXT = "こんにちは。私の名前はオバマです。私はアメリカに行く。";
BreakIterator boundary = BreakIterator.getSentenceInstance(Locale.JAPAN);
boundary.setText(TEXT);
int start = boundary.first();
for (int end = boundary.next();
end != BreakIterator.DONE;
start = end, end = boundary.next()) {
System.out.println(TEXT.substring(start, end));
}
这个程序的输出是:
こんにちは。
私の名前はオバマです。
私はアメリカに行く。
您不能使用 Kuromoji 查找日语句子边界.它可以将一个句子拆分成单词.
You cannot use Kuromoji to look for Japanese sentence boundaries. It can split a sentence into words.
这篇关于如何拆分日语文本?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文