text-segmentation相关内容
如何将文档(如段落、书籍等)拆分成句子。 例如"The dog ran. The cat jumped"into["The dog ran", "The cat jumped"]with spacy? 推荐答案 最新答案如下: from __future__ import unicode_literals, print_function from spacy.lang.en
..
如果您在谷歌搜索分词,确实没有很好的描述,我只是想完全理解动态编程算法将字符串分割成单个单词的过程.有谁知道一个可以很好地描述分词问题的地方,或者任何人都可以描述它吗? 分词基本上只是获取一串字符并决定在哪里将其拆分为单词,如果您不知道并使用动态编程它会考虑一些子问题.使用递归这很简单,但我无法在网上找到任何地方,甚至只是在网上找到一个迭代算法的描述,所以如果有人有任何例子或者可以给出一个很
..
我正在研究将高棉语(柬埔寨语言)的长行拆分为单个单词(UTF-8)的解决方案.高棉语在单词之间不使用空格.有一些解决方案,但它们远远不够(这里 和 在这里),而那些项目已被搁置. 这是需要拆分的高棉语样本行(它们可以比这更长): ចូរសរសើរដល់ទ្រង់ដែលទ្រង់បានប្រទានការទាំងអស់នោះមកដល់រូបអ្នកដោយព្រោះអង្គព្រះយេស៊ូ
..
背景 将数据库列名称拆分为等效的英文文本以作为数据字典的种子.英语词典是根据公司文档、维基和电子邮件的语料库创建的.字典 (lexicon.csv) 是一个包含单词和概率的 CSV 文件.因此,某人(在电子邮件中或在 wiki 页面上)写下“治疗师"这个词的频率越高,“治疗师姓名"拆分为“治疗师姓名"而不是其他内容的可能性就越大.(词典可能甚至不会包括强奸犯这个词.) 源代码 T
..
有谁知道处理寻找句子边界的 Java 库?我认为这将是一个智能的 StringTokenizer 实现,它知道语言可以使用的所有句子终止符. 这是我使用 BreakIterator 的经验: 使用示例此处:我有以下日语: 今日はパソコンのった.买のマックは早い!とても快适です. 在 ascii 中,它看起来像这样: \ufeff\u4eca\u65e5\u306f\u30d1\u
..
背景 希望在 JasperServer 中自动创建域.域是用于创建临时报告的数据“视图".列的名称必须以人类可读的方式呈现给用户. 问题 有超过 2,000 条可能的数据,组织理论上可能希望将这些数据包含在报告中.数据来自非人类友好名称,例如: payperiodmatchcode劳动力分配编码依赖关系行动结束选项actionendoptiondesc 地址类型地址类型描述
..
是否有任何可用的图书馆可用于某些象形文字语言(例如:中文、日语、韩语...)的字数统计? 我发现 MS Word 可以有效地计算这些语言中的文本.我可以在我的 .NET 应用程序中添加对 MS Word 库的引用来实现此功能吗? 或者有没有其他解决方案可以达到这个目的? 解决方案 是否有任何可用的图书馆可用于某些象形文字语言(例如:中文、日语、韩语...)的字数统计?
..
我一直在尝试使用: $string="博士来了!!!我很高兴我在美国,因为博士质量很棒!!!!!!";preg_match_all('~.*?[?.!]~s',$string,$sentences);print_r($sentences); 但它不适用于 Dr., U.S.A. 等 大家有更好的建议吗? 解决方案 没有任何简单的解决方案.您需要在应用程序中进行一些自然语言处理 (
..
从文本块中切出最后一个单词的最佳方法是什么? 我能想到 将其拆分为列表(按空格)并删除最后一项,然后重新连接列表. 使用正则表达式替换最后一个单词. 我目前正在采用方法 #1,但我不知道如何连接列表... content = content[position-1:position+249] # 内容单词 = string.split(content, ' ')words =
..
将字符串拆分为单词的正确方法是什么?(字符串不包含任何空格或标点符号) 例如:"stringintowords" -> "String Into Words" 你能建议这里应该使用什么算法吗? !更新:对于那些认为这个问题只是出于好奇的人.该算法可用于将域名(“sportandfishing .com" -> “SportAndFishing .com")转换为驼峰格式,abou
..
完整的分割代码: % 预处理 + 分割%//Soumyadeep Sinha 的原始分割代码,Ana 进行了几次修改//% 将每个单独的分段字符保存为一个文件函数 [s] = seg (a)myFolder = 'D:\1.Thesis FINISH!!!\Simulasi I\Segmented Images';% a = imread('adv1.png');% 二值化 %级别 = gray
..
可能重复: 如何将首字母显示为大写? PHP将句子中第一个单词的首字母大写 我想将句子中第一个字母和一个句点后的字母大写.有人可以建议怎么做吗? 例如 //I have the following in a language class. "%s needs to identify areas of strength and weakness. %s sets goals
..
我有一个很大的文本字符串,我正在尝试将其拆分为基于“.?!"的句子.但是我的正则表达式无法正常工作,有人可以指导我检测错误吗? String str = "When my friend said he likes deep dish pizza one day, I immediately set a time to come back to Little Star. Arguably, t
..
我的文本(SMS)消息很少,我想使用period('.')作为分隔符对它们进行分段.我无法处理以下类型的消息.如何在Python中使用Regex分割这些消息. 细分之前: 'hyper count 16.8mmol/l.plz review b4 5pm.just to inform u.thank u' 'no of beds 8.please inform person in-ch
..
我有一个文本,可以分成多行,没有特殊格式.因此,我决定为每行line.strip('\n').然后,我考虑使用句子结束标记.将文本分为句子: 期间.,后跟\s(空格),\S(如" ')和后跟[A-Z]将会拆分 不像1.stackoverflow real time solution一样拆分[0-9]\.[A-Za-z]. 我的程序只求解1个句点(.)的一半,后跟一个\ s和[A-Z]
..
如果某个句子中存在某个特定单词,我想提取出确切的句子.谁能让我知道如何使用python做到这一点.我使用了concordance(),但是它只打印单词匹配的行. 解决方案 快速提醒一下:断句实际上是一件非常复杂的事情,句号规则也有例外,例如“先生".或“博士"还有各种各样的句子结尾标点符号.但是例外也有例外(例如,如果下一个单词用大写字母表示,并且不是专有名词,那么Dr.可以结束一个句子.
..
例如,我想分割这句话: I am a sentence. 分成5个部分组成的数组; I,am,a,sentence和.. 尝试使用explode后,我目前正在使用preg_split,但似乎找不到合适的东西. 这是我尝试过的: $sentence = explode(" ", $sentence); /* returns array(4) { [0]=> str
..
我希望将文本分成句子.谁能帮我吗? 我还需要处理缩写.但是,我的计划是在早期阶段替换它们.先生->先生 import re import unittest class Sentences: def __init__(self,text): self.sentences = tuple(re.split("[.!?]\s", text)) cla
..
所以首先,我对Python还是很陌生,所以如果我做的事情很糟糕,我会在这篇文章的开头加上一个抱歉的词.我被分配了这个问题: 我们想设计一个动态编程解决方案来解决以下问题:存在一个字符串字符串,该字符串可能是一个单词序列,所有空格都已删除,并且我们想找到一种方法,如果有的话,可以插入空格以分隔有效的英语单词.例如,您的发明可能来自“发泄您",“青年活动"或“他们发泄".如果输入的是theeag
..
我正在寻找一个与句子中的第一个单词匹配的正则表达式,不包括标点符号和空格.例如:“这是一个句子"中的“这".和“首先,我想说的是“第一!"! 这不起作用: """([A-Z].*?(?=^[A-Za-z]))""".r 解决方案 (?:^|(?:[.!?]\s))(\w+) 将匹配每个句子中的第一个单词. http://rubular.com/r/rJtPbvUEwx
..