如何拆分日语文本? [英] How to split Japanese text?

查看:58
本文介绍了如何拆分日语文本?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

使用 Java 拆分日语文本的最佳方法是什么?例如,对于以下文本:

What is the best way of splitting Japanese text using Java? For Example, for the below text:

こんにちは。私の名前はオバマです。私はアメリカに行く。

我需要以下输出:

こんにちは
私の名前はオバマです
私はアメリカに行く

可以使用 Kuromoji 吗?

Is it possible using Kuromoji?

推荐答案

您可以使用 java.text.BreakIterator.

You can use java.text.BreakIterator.

String TEXT = "こんにちは。私の名前はオバマです。私はアメリカに行く。";
BreakIterator boundary = BreakIterator.getSentenceInstance(Locale.JAPAN);
boundary.setText(TEXT);
int start = boundary.first();
for (int end = boundary.next();
     end != BreakIterator.DONE;
     start = end, end = boundary.next()) {
     System.out.println(TEXT.substring(start, end));
}

这个程序的输出是:

こんにちは。
私の名前はオバマです。
私はアメリカに行く。

您不能使用 Kuromoji 查找日语句子边界.它可以将一个句子拆分成单词.

You cannot use Kuromoji to look for Japanese sentence boundaries. It can split a sentence into words.

这篇关于如何拆分日语文本?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆