text-segmentation相关内容

有人知道使用动态编程进行分词的示例算法吗?

如果您在谷歌搜索分词,确实没有很好的描述,我只是想完全理解动态编程算法将字符串分割成单个单词的过程.有谁知道一个可以很好地描述分词问题的地方,或者任何人都可以描述它吗? 分词基本上只是获取一串字符并决定在哪里将其拆分为单词,如果您不知道并使用动态编程它会考虑一些子问题.使用递归这很简单,但我无法在网上找到任何地方,甚至只是在网上找到一个迭代算法的描述,所以如果有人有任何例子或者可以给出一个很 ..
发布时间:2022-01-24 12:18:56 其他开发

分词高棉语的可行解决方案?

我正在研究将高棉语(柬埔寨语言)的长行拆分为单个单词(UTF-8)的解决方案.高棉语在单词之间不使用空格.有一些解决方案,但它们远远不够(这里 和 在这里),而那些项目已被搁置. 这是需要拆分的高棉语样本行(它们可以比这更长): ចូរសរសើរដល់ទ្រង់ដែលទ្រង់បានប្រទានការទាំងអស់នោះមកដល់រូបអ្នកដោយព្រោះអង្គព្រះយេស៊ូ ..

文本切分:基于字典的分词

背景 将数据库列名称拆分为等效的英文文本以作为数据字典的种子.英语词典是根据公司文档、维基和电子邮件的语料库创建的.字典 (lexicon.csv) 是一个包含单词和概率的 CSV 文件.因此,某人(在电子邮件中或在 wiki 页面上)写下“治疗师"这个词的频率越高,“治疗师姓名"拆分为“治疗师姓名"而不是其他内容的可能性就越大.(词典可能甚至不会包括强奸犯这个词.) 源代码 T ..
发布时间:2022-01-02 17:47:32 Java开发

查找句子边界的 Java 库

有谁知道处理寻找句子边界的 Java 库?我认为这将是一个智能的 StringTokenizer 实现,它知道语言可以使用的所有句子终止符. 这是我使用 BreakIterator 的经验: 使用示例此处:我有以下日语: 今日はパソコンのった.买のマックは早い!とても快适です. 在 ascii 中,它看起来像这样: \ufeff\u4eca\u65e5\u306f\u30d1\u ..
发布时间:2022-01-02 17:33:22 Java开发

如何分隔“句子"中的单词有空格吗?

背景 希望在 JasperServer 中自动创建域.域是用于创建临时报告的数据“视图".列的名称必须以人类可读的方式呈现给用户. 问题 有超过 2,000 条可能的数据,组织理论上可能希望将这些数据包含在报告中.数据来自非人类友好名称,例如: payperiodmatchcode劳动力分配编码依赖关系行动结束选项actionendoptiondesc 地址类型地址类型描述 ..
发布时间:2022-01-02 17:27:40 其他开发

某些象形文字语言中的 Word-Counter?

是否有任何可用的图书馆可用于某些象形文字语言(例如:中文、日语、韩语...)的字数统计? 我发现 MS Word 可以有效地计算这些语言中的文本.我可以在我的 .NET 应用程序中添加对 MS Word 库的引用来实现此功能吗? 或者有没有其他解决方案可以达到这个目的? 解决方案 是否有任何可用的图书馆可用于某些象形文字语言(例如:中文、日语、韩语...)的字数统计? ..
发布时间:2021-12-31 11:45:10 C#/.NET

如何将段落拆分为句子

我一直在尝试使用: $string="博士来了!!!我很高兴我在美国,因为博士质量很棒!!!!!!";preg_match_all('~.*?[?.!]~s',$string,$sentences);print_r($sentences); 但它不适用于 Dr., U.S.A. 等 大家有更好的建议吗? 解决方案 没有任何简单的解决方案.您需要在应用程序中进行一些自然语言处理 ( ..
发布时间:2021-12-28 12:24:12 PHP

Python:截断一个句子的最后一个词?

从文本块中切出最后一个单词的最佳方法是什么? 我能想到 将其拆分为列表(按空格)并删除最后一项,然后重新连接列表. 使用正则表达式替换最后一个单词. 我目前正在采用方法 #1,但我不知道如何连接列表... content = content[position-1:position+249] # 内容单词 = string.split(content, ' ')words = ..
发布时间:2021-12-28 12:08:55 Python

如何将字符串拆分为单词.例如:“stringintowords"->“串成词"?

将字符串拆分为单词的正确方法是什么?(字符串不包含任何空格或标点符号) 例如:"stringintowords" -> "String Into Words" 你能建议这里应该使用什么算法吗? !更新:对于那些认为这个问题只是出于好奇的人.该算法可用于将域名(“sportandfishing .com" -> “SportAndFishing .com")转换为驼峰格式,abou ..

如何在PHP中将句子中的第一个字母大写?

可能重复: 如何将首字母显示为大写? PHP将句子中第一个单词的首字母大写 我想将句子中第一个字母和一个句点后的字母大写.有人可以建议怎么做吗? 例如 //I have the following in a language class. "%s needs to identify areas of strength and weakness. %s sets goals ..
发布时间:2020-07-11 00:26:55 PHP

正则表达式将文本文档拆分为句子

我有一个很大的文本字符串,我正在尝试将其拆分为基于“.?!"的句子.但是我的正则表达式无法正常工作,有人可以指导我检测错误吗? String str = "When my friend said he likes deep dish pizza one day, I immediately set a time to come back to Little Star. Arguably, t ..
发布时间:2020-07-11 00:26:49 Java开发

使用Regex进行句子分割

我的文本(SMS)消息很少,我想使用period('.')作为分隔符对它们进行分段.我无法处理以下类型的消息.如何在Python中使用Regex分割这些消息. 细分之前: 'hyper count 16.8mmol/l.plz review b4 5pm.just to inform u.thank u' 'no of beds 8.please inform person in-ch ..
发布时间:2020-07-11 00:26:47 Python

句子与正则表达式匹配

我有一个文本,可以分成多行,没有特殊格式.因此,我决定为每行line.strip('\n').然后,我考虑使用句子结束标记.将文本分为句子: 期间.,后跟\s(空格),\S(如" ')和后跟[A-Z]将会拆分 不像1.stackoverflow real time solution一样拆分[0-9]\.[A-Za-z]. 我的程序只求解1个句点(.)的一半,后跟一个\ s和[A-Z] ..
发布时间:2020-07-11 00:26:45 Python

使用python提取句子

如果某个句子中存在某个特定单词,我想提取出确切的句子.谁能让我知道如何使用python做到这一点.我使用了concordance(),但是它只打印单词匹配的行. 解决方案 快速提醒一下:断句实际上是一件非常复杂的事情,句号规则也有例外,例如“先生".或“博士"还有各种各样的句子结尾标点符号.但是例外也有例外(例如,如果下一个单词用大写字母表示,并且不是专有名词,那么Dr.可以结束一个句子. ..
发布时间:2020-07-11 00:26:41 Python

将文本拆分为句子

我希望将文本分成句子.谁能帮我吗? 我还需要处理缩写.但是,我的计划是在早期阶段替换它们.先生->先生 import re import unittest class Sentences: def __init__(self,text): self.sentences = tuple(re.split("[.!?]\s", text)) cla ..
发布时间:2020-07-11 00:26:35 Python

使用动态编程进行分词

所以首先,我对Python还是很陌生,所以如果我做的事情很糟糕,我会在这篇文章的开头加上一个抱歉的词.我被分配了这个问题: 我们想设计一个动态编程解决方案来解决以下问题:存在一个字符串字符串,该字符串可能是一个单词序列,所有空格都已删除,并且我们想找到一种方法,如果有的话,可以插入空格以分隔有效的英语单词.例如,您的发明可能来自“发泄您",“青年活动"或“他们发泄".如果输入的是theeag ..
发布时间:2020-07-11 00:26:33 Python

正则表达式匹配句子中的第一个单词

我正在寻找一个与句子中的第一个单词匹配的正则表达式,不包括标点符号和空格.例如:“这是一个句子"中的“这".和“首先,我想说的是“第一!"! 这不起作用: """([A-Z].*?(?=^[A-Za-z]))""".r 解决方案 (?:^|(?:[.!?]\s))(\w+) 将匹配每个句子中的第一个单词. http://rubular.com/r/rJtPbvUEwx ..
发布时间:2020-07-11 00:26:30 其他开发