text-segmentation - IT屋-程序员软件开发技术分享社区

如何使用Spacy按句拆分文档

如何将文档(如段落、书籍等)拆分成句子。例如"The dog ran. The cat jumped"into["The dog ran", "The cat jumped"]with spacy？推荐答案最新答案如下： from __future__ import unicode_literals, print_function from spacy.lang.en ..

如果您在谷歌搜索分词，确实没有很好的描述，我只是想完全理解动态编程算法将字符串分割成单个单词的过程.有谁知道一个可以很好地描述分词问题的地方，或者任何人都可以描述它吗? 分词基本上只是获取一串字符并决定在哪里将其拆分为单词，如果您不知道并使用动态编程它会考虑一些子问题.使用递归这很简单，但我无法在网上找到任何地方，甚至只是在网上找到一个迭代算法的描述，所以如果有人有任何例子或者可以给出一个很 ..

发布时间：2022-01-24 12:18:56 dynamic word iteration text-segmentation 其他开发

分词高棉语的可行解决方案?

我正在研究将高棉语(柬埔寨语言)的长行拆分为单个单词(UTF-8)的解决方案.高棉语在单词之间不使用空格.有一些解决方案，但它们远远不够(这里和在这里)，而那些项目已被搁置. 这是需要拆分的高棉语样本行(它们可以比这更长): ចូរសរសើរដល់ទ្រង់ដែលទ្រង់បានប្រទានការទាំងអស់នោះមកដល់រូបអ្នកដោយព្រោះអង្គព្រះយេស៊ូ ..

发布时间：2022-01-02 17:51:39 python nlp word-boundary text-segmentation southeast-asian-languages Python

文本切分:基于字典的分词

背景将数据库列名称拆分为等效的英文文本以作为数据字典的种子.英语词典是根据公司文档、维基和电子邮件的语料库创建的.字典 (lexicon.csv) 是一个包含单词和概率的 CSV 文件.因此，某人(在电子邮件中或在 wiki 页面上)写下“治疗师"这个词的频率越高，“治疗师姓名"拆分为“治疗师姓名"而不是其他内容的可能性就越大.(词典可能甚至不会包括强奸犯这个词.) 源代码 T ..

发布时间：2022-01-02 17:47:32 java nlp data-dictionary text-segmentation Java开发

查找句子边界的 Java 库

有谁知道处理寻找句子边界的 Java 库?我认为这将是一个智能的 StringTokenizer 实现，它知道语言可以使用的所有句子终止符. 这是我使用 BreakIterator 的经验: 使用示例此处:我有以下日语: 今日はパソコンのった.买のマックは早い！とても快适です. 在 ascii 中，它看起来像这样: \ufeff\u4eca\u65e5\u306f\u30d1\u ..

发布时间：2022-01-02 17:33:22 java string nlp text-segmentation Java开发

如何分隔“句子"中的单词有空格吗?

背景希望在 JasperServer 中自动创建域.域是用于创建临时报告的数据“视图".列的名称必须以人类可读的方式呈现给用户. 问题有超过 2,000 条可能的数据，组织理论上可能希望将这些数据包含在报告中.数据来自非人类友好名称，例如: payperiodmatchcode劳动力分配编码依赖关系行动结束选项actionendoptiondesc 地址类型地址类型描述 ..

发布时间：2022-01-02 17:27:40 bash perl awk nlp text-segmentation 其他开发

某些象形文字语言中的 Word-Counter?

是否有任何可用的图书馆可用于某些象形文字语言(例如:中文、日语、韩语...)的字数统计? 我发现 MS Word 可以有效地计算这些语言中的文本.我可以在我的 .NET 应用程序中添加对 MS Word 库的引用来实现此功能吗? 或者有没有其他解决方案可以达到这个目的? 解决方案是否有任何可用的图书馆可用于某些象形文字语言(例如:中文、日语、韩语...)的字数统计? ..

发布时间：2021-12-31 11:45:10 c# ms-word word-count text-segmentation C#/.NET

如何将段落拆分为句子

我一直在尝试使用: $string="博士来了！！！我很高兴我在美国，因为博士质量很棒！！！！！！";preg_match_all('~.*?[?.!]~s',$string,$sentences);print_r($sentences); 但它不适用于 Dr., U.S.A. 等大家有更好的建议吗? 解决方案没有任何简单的解决方案.您需要在应用程序中进行一些自然语言处理 ( ..

发布时间：2021-12-28 12:24:12 php regex split text-segmentation PHP

Python:截断一个句子的最后一个词?

从文本块中切出最后一个单词的最佳方法是什么? 我能想到将其拆分为列表(按空格)并删除最后一项，然后重新连接列表. 使用正则表达式替换最后一个单词. 我目前正在采用方法 #1，但我不知道如何连接列表... content = content[position-1:position+249] # 内容单词 = string.split(content, ' ')words = ..

发布时间：2021-12-28 12:08:55 python split concatenation word text-segmentation Python

如何将字符串拆分为单词.例如:“stringintowords"->“串成词"?

将字符串拆分为单词的正确方法是什么?(字符串不包含任何空格或标点符号) 例如:"stringintowords" -> "String Into Words" 你能建议这里应该使用什么算法吗? ！更新:对于那些认为这个问题只是出于好奇的人.该算法可用于将域名(“sportandfishing .com" -> “SportAndFishing .com")转换为驼峰格式，abou ..

发布时间：2021-12-28 11:59:27 algorithm nlp dynamic-programming string-split text-segmentation 其他开发

自动保存分割结果 - Matlab 阿拉伯语 OCR

完整的分割代码: % 预处理 + 分割%//Soumyadeep Sinha 的原始分割代码，Ana 进行了几次修改//% 将每个单独的分段字符保存为一个文件函数 [s] = seg (a)myFolder = 'D:\1.Thesis FINISH!!!\Simulasi I\Segmented Images';% a = imread('adv1.png');% 二值化 %级别 = gray ..

发布时间：2021-11-17 01:22:03 matlab ocr arabic text-segmentation 其他开发

如何在PHP中将句子中的第一个字母大写?

可能重复: 如何将首字母显示为大写? PHP将句子中第一个单词的首字母大写我想将句子中第一个字母和一个句点后的字母大写.有人可以建议怎么做吗? 例如 //I have the following in a language class. "%s needs to identify areas of strength and weakness. %s sets goals ..

发布时间：2020-07-11 00:26:55 php text-segmentation PHP

正则表达式将文本文档拆分为句子

我有一个很大的文本字符串，我正在尝试将其拆分为基于“.?！"的句子.但是我的正则表达式无法正常工作，有人可以指导我检测错误吗? String str = "When my friend said he likes deep dish pizza one day, I immediately set a time to come back to Little Star. Arguably, t ..

发布时间：2020-07-11 00:26:49 java regex split text-segmentation Java开发

使用Regex进行句子分割

我的文本(SMS)消息很少，我想使用period('.')作为分隔符对它们进行分段.我无法处理以下类型的消息.如何在Python中使用Regex分割这些消息. 细分之前: 'hyper count 16.8mmol/l.plz review b4 5pm.just to inform u.thank u' 'no of beds 8.please inform person in-ch ..

发布时间：2020-07-11 00:26:47 python regex text-segmentation Python

句子与正则表达式匹配

我有一个文本，可以分成多行，没有特殊格式.因此，我决定为每行line.strip('\n').然后，我考虑使用句子结束标记.将文本分为句子: 期间.，后跟\s(空格)，\S(如" ')和后跟[A-Z]将会拆分不像1.stackoverflow real time solution一样拆分[0-9]\.[A-Za-z]. 我的程序只求解1个句点(.)的一半，后跟一个\ s和[A-Z] ..

发布时间：2020-07-11 00:26:45 python regex python-2.7 text-segmentation Python

使用python提取句子

如果某个句子中存在某个特定单词，我想提取出确切的句子.谁能让我知道如何使用python做到这一点.我使用了concordance()，但是它只打印单词匹配的行. 解决方案快速提醒一下:断句实际上是一件非常复杂的事情，句号规则也有例外，例如“先生".或“博士"还有各种各样的句子结尾标点符号.但是例外也有例外(例如，如果下一个单词用大写字母表示，并且不是专有名词，那么Dr.可以结束一个句子. ..

发布时间：2020-07-11 00:26:41 python text-segmentation Python

如何将句子分为单词和标点符号?

例如，我想分割这句话: I am a sentence. 分成5个部分组成的数组； I，am，a，sentence和.. 尝试使用explode后，我目前正在使用preg_split，但似乎找不到合适的东西. 这是我尝试过的: $sentence = explode(" ", $sentence); /* returns array(4) { [0]=> str ..

发布时间：2020-07-11 00:26:39 php regex string preg-split text-segmentation PHP

将文本拆分为句子

我希望将文本分成句子.谁能帮我吗? 我还需要处理缩写.但是，我的计划是在早期阶段替换它们.先生->先生 import re import unittest class Sentences: def __init__(self,text): self.sentences = tuple(re.split("[.!?]\s", text)) cla ..

发布时间：2020-07-11 00:26:35 python regex python-3.x text-segmentation Python

使用动态编程进行分词

所以首先，我对Python还是很陌生，所以如果我做的事情很糟糕，我会在这篇文章的开头加上一个抱歉的词.我被分配了这个问题: 我们想设计一个动态编程解决方案来解决以下问题:存在一个字符串字符串，该字符串可能是一个单词序列，所有空格都已删除，并且我们想找到一种方法，如果有的话，可以插入空格以分隔有效的英语单词.例如，您的发明可能来自“发泄您"，“青年活动"或“他们发泄".如果输入的是theeag ..

发布时间：2020-07-11 00:26:33 python dynamic-programming text-segmentation Python

正则表达式匹配句子中的第一个单词

我正在寻找一个与句子中的第一个单词匹配的正则表达式，不包括标点符号和空格.例如:“这是一个句子"中的“这".和“首先，我想说的是“第一！"！这不起作用: """([A-Z].*?(?=^[A-Za-z]))""".r 解决方案 (?:^|(?:[.!?]\s))(\w+) 将匹配每个句子中的第一个单词. http://rubular.com/r/rJtPbvUEwx ..

发布时间：2020-07-11 00:26:30 regex text-segmentation 其他开发

text-segmentation相关内容