surrogate-pairs相关内容

实际使用中最常见的非BMP Unicode字符是什么?

根据您的经验,到目前为止,BMP(基本多语言平面)之外的Unicode字符、代码点和范围是最常见的?它们需要UTF-8格式的4个字节或UTF-16格式的替代格式。 我本以为答案是中文和日文字符,但没有包括在最广泛使用的中日韩多字节字符集中,但在我参与的英语维基词典项目中,我们发现到目前为止Gothic alphabet要普遍得多。 更新 我已经编写了几个软件工具来扫描整个维基百科 ..
发布时间:2022-06-22 12:12:57 其他开发

从Delphi字符串检测和检索代码点和代理

我正在努力更好地理解代理项对和Delphi中的Unicode实现。 如果我在Delphi中对unicode字符串S:=‘Ĥà̲V̂e’调用Long(),我将返回,8。 这是因为各个字符[Ĥ]、[à̲]、[V̂]和[e]的长度分别为2、3、2和1。这是因为Ĥ有一个代理,一个̲̀有两个额外的代理,V̂有一个代理,而e没有代理。 如果我想返回字符串中的第二个元素,包括所有代理,[ ..
发布时间:2022-06-21 16:12:06 其他开发

如何在Python中将代理项对转换为普通字符串?

这是Converting to Emoji的后续内容。在这个问题中,OP有一个json.dumps()编码的文件,其中一个表情符号表示为一个代理对-ud83dude4f。他/她在读取文件和正确翻译表情符号时遇到问题,正确的answer是json.loads()文件中的每一行,json模块将处理从代理项对返回到(我假设是UTF8编码的)表情符号的转换。 我的情况是这样的:假设我只有一个带有代理 ..
发布时间:2022-06-20 21:25:59 Python

什么是“代理对"?在爪哇?

我正在阅读 StringBuffer 的文档,特别是 reverse() 方法.该文档提到了一些关于代理对的内容.在这种情况下什么是代理对?什么是 low 和 high 代理? 解决方案 术语“代理对"是指在 UTF-16 编码方案中对具有高代码点的 Unicode 字符进行编码的方法. 在 Unicode 字符编码中,字符被映射到 0x0 到 0x10FFFF 之间的值. 在 ..
发布时间:2021-11-25 14:11:40 Java开发

如何在 C++ 中将 UTF-16 代理十进制转换为 UNICODE

我从��等参数中得到了一些字符串数据. 这些是 Unicode 的 UTF-16 代理对,以十进制表示. 如何使用标准库将它们转换为 Unicode 代码点,例如“U+1F62C"? 解决方案 您可以轻松手动.从高 unicode 点传递到代理对并返回的算法并不难.UTF16 上的维基百科页面说: U+10000 到 U+10FFFF 从 ..
发布时间:2021-09-15 19:39:06 C/C++开发

C# - 从任何字符串中查找 unicode 代码点的代理对的正则表达式?

我正在尝试解析可能包含表情符号的消息.可以接收的示例消息如下所示: {"type":"chat","msg":"用户名:\u00a0\ud83d\ude0b\n"} 应该匹配的是 \u00a0 作为单个字符,而 \ud83d\ude0b 作为一对. 我有可以提取单个代码的正则表达式,但不能配对以匹配完整的表情符号: \\u[a-z0-9]{4} 有没有一种干净的方法来解释一个句子中的 ..
发布时间:2021-07-06 20:11:00 C#/.NET

UTF-8中的代理字符是什么?

我有一个奇怪的验证程序,用于验证utf-8字符串是否是有效的主机名(PHP中的Zend Framework主机名valdiator).它允许IDN(国际化域名).它将比较每个子域与由其十六进制字节表示形式定义的字符集.两个这样的集合是D800-DB7F和DC00-DFFF.在这些比较期间,名为preg_match的php regexp比较函数失败,它表示此函数中不允许使用DC00-DFFF字符.从 ..
发布时间:2020-07-25 22:44:33 其他开发

Unicode代理对

说我有一个代理人对.例如: \u306f\u30fc 有没有可以用来将字符打印到屏幕上的功能? 解决方案 如果要手动执行此操作: echo chr(0x30) . chr(0x6f) . chr(0x30) . chr(0xfc); 如果您有字符串,则可以始终这样做: $callback = function($match) { return chr( ..
发布时间:2020-07-25 22:42:25 PHP

如何创建一个带有代理对的字符串?

我看到了这篇文章在乔恩·斯凯特(Jon Skeet)的博客中,他谈到了字符串反转.我想尝试一下他向我展示的示例,但是它似乎可以工作……这使我相信我不知道如何创建包含替代对的字符串,而该替代对实际上会导致字符串反转失败.实际如何创建带有代理对的字符串,以便我自己可以看到失败? 解决方案 术语“代理对"是指在UTF-16编码方案中对具有高代码点的Unicode字符进行编码的方法(请参阅在Uni ..
发布时间:2020-07-25 22:42:23 C#/.NET

复合字符和代理对之间的区别

在Unicode中,复合字符和代理对之间有什么区别? 在我看来,它们听起来很相似-两个字符代表一个字符.这两个概念有何区别? 解决方案 代理对是Unicode中的怪异疣. Unicode本身就是对数字含义的抽象分配.这就是 encoding .目前可以使用大写字母A,希腊字母alternate-terminal-sigma,克林贡语闭合括号2等,最多可使用2 21 .在Unic ..
发布时间:2020-07-25 22:42:21 其他开发

输出UTF-16?有点卡住

我有一些以代理对形式使用UTF-16编码的字符.我想将这些代理对作为字符输出到屏幕上. 有人知道这怎么可能吗? 解决方案 iconv('UTF-16', 'UTF-8', yourString) ..
发布时间:2020-07-25 22:42:16 PHP

检查Python 3字符串中的非法替代

特别是在Python 3.3和更高版本中,通过使用简单的匹配项来检查孤立代理是否足够: re.search(r'[\uD800-\uDFFF]', s) 基于所有法律代理人均应代表的假设 作为星体代码点,因此将不匹配,从而排除了非法代理人,或者是否有需要注意的警告和边缘情况? 解决方案 是的,这是正确的.代码单元0xD800–0xDFFF不能在宽Unicode字符串中表示有效字符 ..
发布时间:2020-07-25 22:42:11 其他开发

Python:包含代理对时获取正确的字符串长度

考虑在IPython上进行以下交换: In [1]: s = u'華袞與緼𦅷同歸' In [2]: len(s) Out[2]: 8 正确的输出应该是7,但是由于这七个汉字中的第五个具有较高的Unicode代码点,因此它在UTF-8中由“代理对"表示,而不是一个简单的代码点,因此Python认为这是两个字符而不是一个字符. 即使我使用unicodedata,它可以正确地将替代对 ..
发布时间:2020-07-25 22:42:10 其他开发

从Delphi字符串检测和检索代码点和代理

我试图更好地理解Delphi中的代理对和Unicode实现. 如果我在Delphi中对Unicode字符串S:='ĤàV̲e'调用length(),我将返回8. 这是因为各个字符[Ĥ],[à̲],[V̂]和[e]的长度分别为2、3、2和1.这是因为Ĥ具有代理,àadditional具有两个附加代理,V̂具有代理,e没有代理. 如果我想返回字符串中的第二个元素,包括所有代理,[à̲ ..
发布时间:2020-07-25 22:42:08 其他开发