cjk相关内容

将CJK音译为拉丁语-最好使用C ++

我正在尝试编写一个可以将CJK音译为拉丁语(即拼音,罗马字等)的程序.例如,您提供中文,日文或韩文文档作为输入,然后将音译版本转换为拉丁文作为输出. 我在这个领域是新手,所以请在这里与我同在. 显然,首先,我需要先检测语言的类型(中文,日文或韩文).然后,据我到目前为止所了解的,为了进行音译,我需要将文本分成单词,因为在这些语言中单词之间没有 space .这称为分词.最后,在找到单词 ..
发布时间:2020-07-11 19:25:09 C/C++开发

如何在Perl或任何其他编程语言中对CJK(亚洲)字符进行排序?

如何在Perl中对中文,日文和韩文(CJK)字符进行排序? 据我所知,按笔画计数然后按部首对CJK字符进行排序似乎是对这些语言进行排序的方式.还有一些按声音排序的方法,但这似乎不太常见. 我尝试使用: perl -e 'print join(" ", sort qw(工 然 一 人 三 古 二 )), "\n";' # Prints: 一 三 二 人 古 工 然 which is ..
发布时间:2020-07-08 10:34:35 其他开发

如何将汉字转换为拼音

为了对中文文本进行排序,我想将汉字转换为拼音,正确地分隔每个汉字并将连续的字符分组在一起. 您能通过提供执行此操作的逻辑或源代码来帮助我吗? 请让我知道是否已经为此提供了任何开源或库. 解决方案 简短的回答:您没有. 长答案:汉字到汉语拼音没有一对一的映射.只是一些简单的例子: 把可以是第三声调或第四声调的"ba". 了可以是"le"无声或"liao"第三声. ..
发布时间:2020-07-08 10:25:25 其他开发

URL中是否允许输入中文字符?

是否允许在URL中输入汉字? 经过测试,可以在URL中输入汉字,并且汉字也将转换为punycode并发送请求,并到达相关页面. 但是就目前而言,还有其他人要对网站网址也允许中文字符进行验证吗? 解决方案 Punycode可以在不支持的软件中使用非拉丁脚本.因此,尽管我喜欢我的网站 http://见.香港/我可以输入 http://xn--nw2a.xn--j6w193g/如果我 ..
发布时间:2020-07-03 06:51:46 PHP

将句子拆分成单独的单词

我需要将中文句子拆分为单独的单词.中文的问题是没有空格.例如,该句子可能看起来像:主楼怎么走(带空格的地方是:主楼 怎么 走). 目前,我可以想到一种解决方案.我有一本有中文单词的字典(在数据库中).该脚本将: 尝试在数据库(主楼)中查找句子的前两个字符, 如果主楼实际上是一个单词,并且它在数据库中,脚本将尝试查找前三个字符(主楼怎). 主楼怎不是单词,所以不在数据库中=>我的应 ..
发布时间:2020-07-01 02:22:27 PHP

使用xlrd读取包含中文和/或印地语字符的Excel xls文件

http://scienceoss. com/read-excel-files-from-python/comment-page-1/#comment-1051 通过上面的链接,我使用了此实用程序来读取XLS文件.如果XLS文件包含其他语言字符(例如中文或印地语),则不会正确输出它们.有解决方法吗? 在谷歌搜索后,我发现了这一点: import xlrd def upload_ ..
发布时间:2020-06-18 19:04:29 Python

检测Windows字体大小(100%,125%和150%)

我创建了一个可以完美运行的应用程序,直到用户选择了125%或150%。这会破坏我的申请。后来,我找到了一种通过检测DPI来查找字体大小的方法。 这一直很好,直到使用Windows 7的中文版本的人开始使用我的应用程序。整个应用程序在中文Windows 7上中断。据我所知(我不能真正测试它,因为我只有英文版,安装语言包也不会引起问题)中文字符导致奇怪的DPI破坏了我的应用程序。 我当前的 ..
发布时间:2020-05-30 19:32:45 C#/.NET

转换数字为重音拼音?

给出源文本,例如 nin2 hao3 ma (这是写ASCII拼音的一种典型方法,没有适当的重音字符) 并给出了(UTF8)转换表,例如 a1;ā e1;ē i1;ī o1;ō u1;ū ü1;ǖ A1;Ā E1;Ē ... 我如何将源文本转换为 nín hǎo ma ? 对于我使用PHP的价值而言,这可能是我正在研究的正则表达式? 解决方案 ..
发布时间:2020-05-27 02:37:25 PHP

检测字符串中的中文(多字节)字符

$str = "This is a string containing 中文 characters. Some more characters - 中华人民共和国 "; 如何从该字符串中检测汉字并打印以第一个字符开头并以“-"结尾的部分? (它将是“中文字符.更多字符-".) 谢谢! 解决方案 我已经使用preg_match和正则表达式解决了这个问题: $str = "Th ..
发布时间:2020-05-27 02:37:04 PHP

使用支持所有语言(尤其是CJK)的TCPDF创建PDF

有人可以为您提供一个简洁明了的示例,说明如何使用TCPDF创建支持任何语言的文本字符串的PDF吗? 似乎没有一种字体可以支持所有语言.我猜字体太大了吗? 我认为正确的方法是检测字符串的语言并将其字体类型动态设置为兼容字体.如果是这种情况,那么检测每个字符串的语言将变得非常复杂. 如果使用"freeserif"字体,则支持大多数语言.但是,它不支持CJK字体.我已经尝试了许多字体( ..
发布时间:2020-05-27 01:43:47 PHP

php-用于检查字符串是否包含中文字符的正则表达式

我有字符串$str,我想检查其内容是否包含中文字符(是/否) $str = "赕就可消垻,只有当所有方块都被消垻时才可以过关"; 你能帮我吗? 谢谢! 阿德里安 解决方案 您可以使用Unicode字符类 http://www.regular-expressions.info/unicode.html preg_match("/\p{Han}+/u", $utf8_st ..
发布时间:2020-05-26 23:30:39 PHP

使用Perl检测中文字符?

有什么方法可以使用Perl检测汉字吗?以及如何用符号点“."分隔汉字?完美吗? 解决方案 取决于您对汉字的特殊理解.也许您正在寻找/\p{Script=Hani}/,但是如果我们要扩大网络宽度,则以下正则表达式模式将匹配中文书写中出现的内容.如有必要,请限制. use 5.014; / (?: \p{Block=CJK_Compatibility} | \p{Bl ..
发布时间:2020-05-25 18:53:33 其他开发

将中文转换为拼音

我在网络上找到了诸如 http://www.chinesetopinyin.com/之类的地方将汉字转换为拼音(罗马化).有谁知道该怎么做,或者有可以解析的数据库? 编辑:我正在使用C#,但实际上更希望使用数据库/平面文件. 解决方案 使用 Python : 的可行解决方案 我认为Unicode数据库包含汉字的拼音罗马化,但是这些不包含在unicodedata模块数据中. ..
发布时间:2020-05-25 00:57:45 其他开发

使用PHP从MySQL处理utf8mb4数据

这可能很简单.我发誓我一直在网上寻找答案,但没有找到答案.由于我的特殊情况有点不典型,所以我最终决定在这里询问. 我在MySQL中有一些用于中文程序的表.它需要能够支持所有可能的汉字,包括那些没有很好的字体支持的稀有汉字.表格中的示例单元格可能是这样的: 东菄鸫䍶𠍀倲𩜍𢘐涷蝀冻鯟𢔅崠埬𧓕䰤 为了使它在数据库中正常工作,我不得不将编码/排序规则设置为utf8mb4.到目前 ..
发布时间:2020-05-15 01:46:15 其他开发

'𠂉'不是有效的Unicode字符,但是在Unicode字符集中?

短篇小说:我无法通过在Ruby on Rails应用程序中使用文本字段(具有默认的UTF-8编码)或直接使用来输入“𠂉"这样的实体来存储在MySQL数据库中一个MySQL GUI应用. 据我所知,所有汉字和部首都可以毫无问题地输入数据库,但是这些很少输入的“字符组件"并不是.上面提到的字符是unicode U + 20089和html实体𠂉 我可以通过输入 ..
发布时间:2020-05-15 01:16:27 其他开发

MS Access查询不使用标准的相等运算符区分平假名和片假名

我最近在搜索包含日语文本的表时遇到了一个MS Access查询问题.日语有两个字母,平假名和片假名,具有相同的声音值,但字符不同.例如,あ(hiragana)和ア(片假名)都发音为'a'.对于我的SELECT查询,这两个字符需要区别对待,但是当我运行以下查询时: SELECT [KeywordID] FROM [Keyword] WHERE [Keyword].[Keyword]="あ" ..
发布时间:2020-05-12 20:46:57 其他开发