文本中不带标点符号的句子标注 [英] Sentence annotation in text without punctuation

查看：73 发布时间：2022/4/22 23:20:37 java nlp stanford-nlp

本文介绍了文本中不带标点符号的句子标注的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

我很难让CoreNLP系统正确地找到诗歌语料库中一个句子的结束位置和另一个句子的开始位置。

苦苦挣扎的原因：

This is a particularly tricky one (系统认为第一句话以""结尾。在第二节的开头)

考虑到缺少大写字母和标点符号，我想我应该尝试使用-tokenizeNls来看看这是否会改进它，但它做得太过分了，去掉了空行之间的任何句子(有几个)

这些句子通常在行尾结束，但并不总是如此，因此，如果系统可以将一行结尾视为可能的断句候选者，并可能权衡这些结束点的可能性，但我不知道如何实现这一点，这将是一种巧妙的做法。

有没有一种优雅的方法来做到这一点？还是其他选择？

提前谢谢！

(预期句子输出here)