astral-plane - IT屋-程序员软件开发技术分享社区

实际使用中最常见的非BMP Unicode字符是什么？

根据您的经验，到目前为止，BMP(基本多语言平面)之外的Unicode字符、代码点和范围是最常见的？它们需要UTF-8格式的4个字节或UTF-16格式的替代格式。我本以为答案是中文和日文字符，但没有包括在最广泛使用的中日韩多字节字符集中，但在我参与的英语维基词典项目中，我们发现到目前为止Gothic alphabet要普遍得多。更新我已经编写了几个软件工具来扫描整个维基百科 ..

发布时间：2022-06-22 12:12:57 unicode cjk codepoint surrogate-pairs astral-plane 其他开发

如何从 .NET 字符串中获取 Unicode 代码点数组?

我有一个字符范围限制列表，我需要检查一个字符串，但 .NET 中的 char 类型是 UTF-16，因此某些字符会变成古怪的(代理)对.因此，当枚举 string 中的所有 char 时，我没有得到 32 位 Unicode 代码点，并且一些高值比较失败. 我对 Unicode 有足够的了解，如有必要，我可以自己解析字节，但我正在寻找 C#/.NET Framework BCL 解决方案.所 ..

发布时间：2022-01-12 20:17:28 c# string unicode char astral-plane C#/.NET

Mysql 服务器不支持 4 字节编码的 utf8 字符

我在运行从 Sql Server 到 MySql db 的数据传输组件时收到服务器错误.错误信息如下: [MySql][ODBC 5.1 驱动程序][mysqld-5.0.67-community-nt-log]服务器不支持4字节编码的UTF8字符. 源 Sql Server 表包含 nvarchar 列，目标 MySql 表包含 varchar 列. 有人能解释一下这个问题吗? ..

发布时间：2021-12-28 16:51:52 mysql utf-8 character utf8mb4 astral-plane 数据库

BMP 之外的 JavaScript 字符串

BMP 是基本多语言平面根据 JavaScript:好的部分: JavaScript 是在 Unicode 是 16 位字符集的时候构建的，因此 JavaScript 中的所有字符都是 16 位宽. 这让我相信 JavaScript 使用 UCS-2(而不是 UTF-16！)并且最多只能处理 U+FFFF 的字符. 进一步调查证实了这一点: >String.fromC ..

发布时间：2021-12-26 13:31:17 javascript unicode utf-16 surrogate-pairs astral-plane 前端开发

在 Windows 中，如何输入 Unicode 基本多语言平面之外的字符?

我知道从 Windows XP 开始，Windows 就支持补充平面. 我知道我的字体包含基本多语言平面 (BMP) 之外的字符. 对于这些字符，Unicode 代码点由五个十六进制数字组成. 我不知道如何在应用程序中输入这些字符. Windows 似乎只支持 BMP 中字符的键盘输入.您可以输入十进制数，或者某些应用程序允许您输入四位十六进制数. 有人可以确认如何管 ..

发布时间：2021-09-25 20:03:51 windows unicode astral-plane 其他开发

模式中包含 \Uxxxxxxxx 字符的 C# 正则表达式

Regex.IsMatch( "foo", "[\U00010000-\U0010FFFF]" ) 抛出:System.ArgumentException:以相反的顺序解析“[-]"-[x-y]范围. 查看 \U00010000 和 \U0010FFF 的十六进制值，我得到:第一个字符为 0xd800 0xdc00，第二个字符为 0xdbff 0xdfff. 所以我想我真的有一个问题 ..

发布时间：2021-07-06 19:44:48 c# regex unicode astral-plane C#/.NET

MongoDB 可以存储和操作带有基本多语言平面之外的代码点的 UTF-8 字符串吗?

在 MongoDB 2.0.6 中，当尝试存储包含字符串字段的文档或查询文档时，其中字符串的值包含 BMP 之外的字符，我收到大量错误，例如:“不正确的 UTF-16:55357"，或“缓冲区太小" 有哪些设置、更改或建议允许在 Mongo 中存储和查询多语言字符串，尤其是那些包含 0xFFFF 以上字符的字符串? 谢谢. 解决方案这里有几个问题: 1) 请注意，Mon ..

发布时间：2021-06-03 19:50:24 mongodb utf-8 multilingual astral-plane gorm-mongodb 其他开发

检索Unicode代码点> QChar的U + FFFF

我有一个应处理各种字符并在某些时候显示有关它们的信息的应用程序.我在QChar，QString等中使用Qt及其固有的Unicode支持. 现在，我需要QChar的代码点才能在 http:/中查找某些数据/unicode.org/Public/UNIDATA/UnicodeData.txt ，但是QChar的unicode()方法仅返回ushort(无符号短)，通常为0到65535(或0xFF ..

发布时间：2020-07-19 22:31:23 qt unicode astral-plane codepoint qchar 其他开发

实际使用中最常见的非BMP Unicode字符是什么?

根据您的经验，到目前为止，哪些Unicode字符，代码点，范围超出BMP(基本多语言平面)是最常见的?这些是在UTF-8中需要4个字节或在UTF-16中需要替代的字节. 我希望答案是名称中使用的中文和日语字符，但不包含在最广泛的CJK多字节字符集中，但是在我最忙的项目中，英语维基词典中，我们发现到目前为止，哥特式字母更为普遍. 更新我编写了一些软件工具来扫描整个Wikipedi ..

发布时间：2020-07-19 22:29:57 unicode cjk codepoint surrogate-pairs astral-plane 其他开发

如何将角色从基本多语言平面中转出?

对于基本多语言平面中的字符，我们可以使用'\ uxxxx'对其进行转义.例如，您可以使用/[\ u4e00- \ u9fff]/来匹配一个常见的汉字(0x4e00-0x9fff是CJK统一表意文字的范围). 但是对于超出基本多语言平面的字符，其代码大于0xffff.因此，您不能使用格式'\ uxxxx'对其进行转义，因为'\ u20000'表示字符'\ u2000'和字符'0'，而不是代码为 ..

发布时间：2020-07-01 19:49:43 javascript unicode non-english astral-plane 其他开发

通过将4字节unicode插入mysql引发警告

查看以下内容: /home/kinka/workspace/py/tutorial/tutorial/pipelines.py:33: Warning: Incorrect string value: '\xF0\x9F\x91\x8A\xF0\x9F...' for column 't_content' at row 1 n = self.cursor.execute(self.sql, ..

发布时间：2020-05-14 20:34:56 python mysql regex astral-plane 数据库

如何在谷歌v8（和nodejs）中渲染32位unicode字符

有没有人知道如何在google v8中渲染unicode'星界'字符（其CID超出0xffff），javascript vm同时驱动google chrome和nodejs？有趣的是，当我给谷歌chrome（它标识为11.0.696.71，在ubuntu 10.4上运行）这样的html页面时： document.write（“helo”） document.wr ..

发布时间：2019-05-24 21:22:59 javascript node.js unicode v8 astral-plane 前端开发

来自javascript的charcode中的Unicode字符用于charcodes>为0xFFFF

我需要从unicode charcode中获取字符串/ char，最后将其放入DOM TextNode中，使用客户端JavaScript添加到HTML页面中。目前，我正在做： String.fromCharCode（parseInt（charcode，16））; 其中 charcode 是一个十六进制字符串，包含charcode，例如 “1D400”。应该返回的u ..

发布时间：2019-05-24 16:19:12 javascript unicode astral-plane 前端开发

BMP之外的JavaScript字符串

BMP正在基本多语种飞机根据 JavaScript：好零件： JavaScript一次构建当Unicode是一个16位字符集时，JavaScript中的所有字符都是16位宽。这让我相信JavaScript使用UCS-2（不是UTF-16！），只能处理U + FFFF以外的字符。进一步调查确认了这一点： >使用String.fromCharCode（0x20001 ..

发布时间：2019-01-22 19:43:51 javascript unicode utf-16 surrogate-pairs astral-plane 前端开发

Java读取带有补充unicode字符的字符流

我在使用Java阅读补充unicode字符时遇到了麻烦。我有一个文件可能包含补充集中的字符（任何大于\ uFFFF）。当我设置我的InputStreamReader以使用UTF-8读取文件时，我希望read（）方法为每个补充字符返回一个字符，而不是它似乎在16位阈值上分开。我看到了一些关于基本unicode字符流的其他问题，但似乎没有什么能处理大于16位的情况。这是一些简化的示例代 ..

发布时间：2019-01-08 19:31:41 java unicode astral-plane supplementary Java开发

Java正则表达式匹配基本多语言平面之外的字符

如何在java中的unicode Basic Multilingual Plane外部匹配字符（意图删除它们）？解决方案要删除所有非BMP字符，以下内容应该有效：字符串sanitizedString = inputString.replaceAll（“[^ \ u0000-\ uFFFF]“，”“）; ..

发布时间：2018-12-11 22:51:00 java regex unicode astral-plane Java开发

char中的Unicode比U +中的U + FFFF多吗？

如何在Java中使用char显示U + FFFF上方的Unicode字符？我需要这样的东西（如果它有效）： char u ='\ u + 10FFFF'; 解决方案你不能用一个 char （其中包含UTF-16代码单元），但您可以使用 String ： //这表示U + 10FFFF 字符串x =“\ ubbff \ ufffff”; ..

发布时间：2018-12-07 18:05:30 java unicode utf-8 astral-plane Java开发

Java charAt用于具有两个代码单元的字符

来自 Core Java ，第一卷。 1，第9版，p。 69：字符ℤ需要两个UTF-16编码的代码单元。调用字符串句子=“ℤ是整数集”; //为了清楚起见;不在书中 char ch = sentence.charAt（1）不返回空格但是第二个代码单位ℤ。但似乎 sentence.charAt（1）返回一个空格。例如，以下代码中的 if 语句 ..

发布时间：2018-12-04 12:48:25 java unicode utf-16 surrogate-pairs astral-plane Java开发

Mysql服务器不支持4字节编码的utf8字符

我从Sql Server运行数据传输组件到MySql db时收到服务器错误。错误信息如下： [MySql] [ODBC 5.1 Driver] [mysqld-5.0.67 -community-nt-log]服务器不支持4字节编码的UTF8字符。源Sql Server表包含nvarchar列，目标MySql表包含varchar列。任何人都可以解释这个问题吗？解决 ..

发布时间：2016-11-18 15:36:33 mysql utf-8 character utf8mb4 astral-plane 数据库

你将如何得到的Unicode代码点从.NET字符串数组？

我有我需要核对串字符范围限制列表，但字符键入.NET是UTF-16，因此一些字符变得古怪（代理）对，而不是。因此，枚举所有的在字符串字符，我没有得到32位的Unicode代码点的时候并具有高值的一些比较失败。我理解Unicode的不够好，如果有必要，我可以解析字节自己，但我正在寻找一个C＃/。NET框架BCL解决方案。所以... 你会如何转换字符串到一个数组（ INT [ ] ）的 ..

发布时间：2016-09-08 18:51:28 c# string unicode char astral-plane C#/.NET

astral-plane相关内容