astral-plane相关内容

实际使用中最常见的非BMP Unicode字符是什么?

根据您的经验,到目前为止,BMP(基本多语言平面)之外的Unicode字符、代码点和范围是最常见的?它们需要UTF-8格式的4个字节或UTF-16格式的替代格式。 我本以为答案是中文和日文字符,但没有包括在最广泛使用的中日韩多字节字符集中,但在我参与的英语维基词典项目中,我们发现到目前为止Gothic alphabet要普遍得多。 更新 我已经编写了几个软件工具来扫描整个维基百科 ..
发布时间:2022-06-22 12:12:57 其他开发

如何从 .NET 字符串中获取 Unicode 代码点数组?

我有一个字符范围限制列表,我需要检查一个字符串,但 .NET 中的 char 类型是 UTF-16,因此某些字符会变成古怪的(代理)对.因此,当枚举 string 中的所有 char 时,我没有得到 32 位 Unicode 代码点,并且一些高值比较失败. 我对 Unicode 有足够的了解,如有必要,我可以自己解析字节,但我正在寻找 C#/.NET Framework BCL 解决方案.所 ..
发布时间:2022-01-12 20:17:28 C#/.NET

在 Windows 中,如何输入 Unicode 基本多语言平面之外的字符?

我知道从 Windows XP 开始,Windows 就支持补充平面. 我知道我的字体包含基本多语言平面 (BMP) 之外的字符. 对于这些字符,Unicode 代码点由五个十六进制数字组成. 我不知道如何在应用程序中输入这些字符. Windows 似乎只支持 BMP 中字符的键盘输入.您可以输入十进制数,或者某些应用程序允许您输入四位十六进制数. 有人可以确认如何管 ..
发布时间:2021-09-25 20:03:51 其他开发

MongoDB 可以存储和操作带有基本多语言平面之外的代码点的 UTF-8 字符串吗?

在 MongoDB 2.0.6 中,当尝试存储包含字符串字段的文档或查询文档时,其中字符串的值包含 BMP 之外的字符,我收到大量错误,例如:“不正确的 UTF-16:55357",或“缓冲区太小" 有哪些设置、更改或建议允许在 Mongo 中存储和查询多语言字符串,尤其是那些包含 0xFFFF 以上字符的字符串? 谢谢. 解决方案 这里有几个问题: 1) 请注意,Mon ..
发布时间:2021-06-03 19:50:24 其他开发

检索Unicode代码点> QChar的U + FFFF

我有一个应处理各种字符并在某些时候显示有关它们的信息的应用程序.我在QChar,QString等中使用Qt及其固有的Unicode支持. 现在,我需要QChar的代码点才能在 http:/中查找某些数据/unicode.org/Public/UNIDATA/UnicodeData.txt ,但是QChar的unicode()方法仅返回ushort(无符号短),通常为0到65535(或0xFF ..
发布时间:2020-07-19 22:31:23 其他开发

实际使用中最常见的非BMP Unicode字符是什么?

根据您的经验,到目前为止,哪些Unicode字符,代码点,范围超出BMP(基本多语言平面)是最常见的?这些是在UTF-8中需要4个字节或在UTF-16中需要替代的字节. 我希望答案是名称中使用的中文和日语字符,但不包含在最广泛的CJK多字节字符集中,但是在我最忙的项目中,英语维基词典中,我们发现到目前为止,哥特式字母更为普遍. 更新 我编写了一些软件工具来扫描整个Wikipedi ..
发布时间:2020-07-19 22:29:57 其他开发

如何将角色从基本多语言平面中转出?

对于基本多语言平面中的字符,我们可以使用'\ uxxxx'对其进行转义.例如,您可以使用/[\ u4e00- \ u9fff]/来匹配一个常见的汉字(0x4e00-0x9fff是CJK统一表意文字的范围). 但是对于超出基本多语言平面的字符,其代码大于0xffff.因此,您不能使用格式'\ uxxxx'对其进行转义,因为'\ u20000'表示字符'\ u2000'和字符'0',而不是代码为 ..
发布时间:2020-07-01 19:49:43 其他开发

BMP之外的JavaScript字符串

BMP正在基本多语种飞机 根据 JavaScript:好零件: JavaScript一次构建当Unicode是一个16位字符集时,JavaScript中的所有字符都是16位宽。 这让我相信JavaScript使用UCS-2(不是UTF-16!),只能处理U + FFFF以外的字符。 进一步调查确认了这一点: >使用String.fromCharCode(0x20001 ..
发布时间:2019-01-22 19:43:51 前端开发

Java读取带有补充unicode字符的字符流

我在使用Java阅读补充unicode字符时遇到了麻烦。我有一个文件可能包含补充集中的字符(任何大于\ uFFFF)。当我设置我的InputStreamReader以使用UTF-8读取文件时,我希望read()方法为每个补充字符返回一个字符,而不是它似乎在16位阈值上分开。 我看到了一些关于基本unicode字符流的其他问题,但似乎没有什么能处理大于16位的情况。 这是一些简化的示例代 ..
发布时间:2019-01-08 19:31:41 Java开发

char中的Unicode比U +中的U + FFFF多吗?

如何在Java中使用char显示U + FFFF上方的Unicode字符? 我需要这样的东西(如果它有效): char u ='\ u + 10FFFF'; 解决方案 你不能用一个 char (其中包含UTF-16代码单元),但您可以使用 String : //这表示U + 10FFFF 字符串x =“\ ubbff \ ufffff”; ..
发布时间:2018-12-07 18:05:30 Java开发

Java charAt用于具有两个代码单元的字符

来自 Core Java ,第一卷。 1,第9版,p。 69: 字符ℤ需要两个UTF-16编码的代码单元。调用 字符串句子=“ℤ是整数集”; //为了清楚起见;不在书中 char ch = sentence.charAt(1) 不返回空格但是第二个代码单位ℤ。 但似乎 sentence.charAt(1) 返回一个空格。例如,以下代码中的 if 语句 ..
发布时间:2018-12-04 12:48:25 Java开发

你将如何得到的Unicode代码点从.NET字符串数组?

我有我需要核对串字符范围限制列表,但字符键入.NET是UTF-16,因此一些字符变得古怪(代理)对,而不是。因此,枚举所有的在字符串字符 ,我没有得到32位的Unicode代码点的时候并具有高值的一些比较失败。 我理解Unicode的不够好,如果有必要,我可以解析字节自己,但我正在寻找一个C#/。NET框架BCL解决方案。所以... 你会如何转换字符串到一个数组( INT [ ] )的 ..
发布时间:2016-09-08 18:51:28 C#/.NET