codepoint相关内容

实际使用中最常见的非BMP Unicode字符是什么?

根据您的经验,到目前为止,BMP(基本多语言平面)之外的Unicode字符、代码点和范围是最常见的?它们需要UTF-8格式的4个字节或UTF-16格式的替代格式。 我本以为答案是中文和日文字符,但没有包括在最广泛使用的中日韩多字节字符集中,但在我参与的英语维基词典项目中,我们发现到目前为止Gothic alphabet要普遍得多。 更新 我已经编写了几个软件工具来扫描整个维基百科 ..
发布时间:2022-06-22 12:12:57 其他开发

确定Unicode代码点是否表示来自特定脚本(如拉丁脚本)的字符?

Unicode将字符归类为属于script,例如Latin script。 如何测试特定字符(code point)是否在特定脚本中? 推荐答案 表示枚举中的各种unicode脚本,例如包括Character.UnicodeScript.LATIN。这些与Unicode Script Properties匹配。 您可以通过将字符的code point整数提交给该枚举上的of方法 ..
发布时间:2022-03-01 22:47:10 Java开发

给定Unicode代码点的编号,如何获取该字符的字符串或CharSequence对象

我看过有关在Java中获取Unicode字符的代码点编号的问题和答案。例如,问题How can I get a Unicode character's code?。 但我想要的正好相反:给定一个整数,如何获取分配给该code point数字的该字符的文本? char原始数据类型没有任何用处,仅限于Unicode字符集的Basic Multilingual Plane。该平面表示以Unico ..
发布时间:2022-03-01 22:36:30 Java开发

为什么Unicode被限制为0x10FFFF?

为什么最大Unicode码位限制为0x10FFFF?是否可以通过任何编码方案(如UTF-16、UTF-8)表示此代码点以上的Unicode(例如0x10FFFF+0x000001=0x110000)? 推荐答案 是因为utf-16。基础多语种平面之外的字符在utf-16中用surrogate pair表示,第一个编码单元(CU)位于0xD800-0xDBFF之间,第二个编码单元位于0x ..
发布时间:2022-02-21 22:21:43 其他开发

为什么 Unicode 被限制为 0x10FFFF?

为什么最大 Unicode 代码点被限制为 0x10FFFF?是否可以在此代码点上方表示 Unicode - 例如0x10FFFF + 0x000001 = 0x110000 - 通过任何编码方案,如 UTF-16、UTF-8? 解决方案 这是因为 UTF-16. 基本多语言平面 (BMP) 之外的字符使用 代理对 UTF-16 中的第一个代码单元 (CU) 位于 0xD800–0xDBF ..
发布时间:2022-01-07 21:15:31 其他开发

如何将 unicode 字符串输出到 RTF(使用 C#)

我正在尝试将 unicode 字符串输出为 RTF 格式.(使用 c# 和 winforms) 来自维基百科: 如果需要 Unicode 转义,则使用控制字 \u,后跟一个 16 位有符号十进制整数,给出 Unicode 代码点编号.为了不支持 Unicode 的程序的利益,后面必须跟在指定代码页中该字符的最接近的表示形式.例如,\u1576?将给出阿拉伯字母 beh,指定不支持 Un ..
发布时间:2021-12-26 13:43:30 C#/.NET

使用 Python 获取字符的 unicode 代码点

在 Python API 中,有没有办法提取单个字符的 unicode 代码点? 编辑:以防万一,我使用的是 Python 2.7. 解决方案 >>>ord(u"ć")263>>>你“咖啡馆"[2]u'f'>>>你“咖啡馆"[3]你'\xe9'>>>对于 u"café" 中的 c:... 打印 repr(c), ord(c)...你是 99你是 97你是 102你'\xe9' 233 ..
发布时间:2021-12-08 12:48:23 Python

给定Unicode代码点的编号,如何获得该字符的String或CharSequence对象

我已经看到有关获取Java中Unicode字符的代码点号的问答.例如,问题 如何获取Unicode字符的代码? . 但是我要相反:给定一个整数,我如何获得分配给该代码点编号? char 基本数据类型没有用,仅限于 String 类提供方法 字符 , CharSequence 然后我可以加入其他文本了? 在编写字符串文字时,我们可以将Unicode转义序列与反斜杠一起使用-u.但是 ..
发布时间:2021-04-21 20:19:31 其他开发

如何将QChar转换为int

在C ++中,有一种方法可以将char转换为int并获取ascii值作为回报.有没有办法用qchar做同样的事情?由于unicode支持这么多字符,而且其中有些实际上看起来很相似,因此有时很难说清正在处理什么字符.可以使用一个明确的代码点或数字来获得此帮助将非常有帮助. 我在网上和该网站上搜索了解决方案,但到目前为止,运气不好,除非我忽略了一些内容,否则Qt文档也无济于事. 提前谢谢! ..
发布时间:2020-07-24 18:39:27 其他开发

如何建立编码字符的编码点?

给出一个字节流(代表字符)并对该流进行编码,我如何获得字符的代码点? InputStreamReader r = new InputStreamReader(bla, Charset.forName("UTF-8")); int whatIsThis = r.read(); 上面的代码段中的read()返回了什么?是unicode代码点吗? 解决方案 A char(隐式)是UT ..
发布时间:2020-07-19 22:33:48 Java开发

如何在PHP中将UTF16代理对转换为等效的HEX代码点?

我正在制作一个应用程序,当聊天将从iOS应用程序发送时,但是管理员可以从PHP内置的“管理控制台"中查看聊天记录. 从数据库中,我将得到这样的聊天消息: Hi, Jax\ud83d\ude1b\ud83d\ude44! can we go for a coffee? 我正在使用twemoji 库,该库可以将十六进制代码点转换为图像. 让我们详细说一下, 在php部分,我 ..
发布时间:2020-07-19 22:32:41 PHP

为什么在Unicode中有重复的字符?

我可以在 Unicode 中看到一些重复的字符.例如,字符"C"可以由代码点U + 0043和U + 0421表示.为什么会这样? 解决方案 正如其他人所指出的那样,您的主要谬误是混淆了拉丁和西里尔字母以及其中的某些字形(即C( U + 0421西里尔大写字母)).有许多这样的字符对,它们看起来很相似,但是是不同的字符.例如,您会在拉丁语,希腊语和西里尔字母中找到很多.不过,大多数情况下, ..
发布时间:2020-07-19 22:32:32 其他开发

检索Unicode代码点> QChar的U + FFFF

我有一个应处理各种字符并在某些时候显示有关它们的信息的应用程序.我在QChar,QString等中使用Qt及其固有的Unicode支持. 现在,我需要QChar的代码点才能在 http:/中查找某些数据/unicode.org/Public/UNIDATA/UnicodeData.txt ,但是QChar的unicode()方法仅返回ushort(无符号短),通常为0到65535(或0xFF ..
发布时间:2020-07-19 22:31:23 其他开发

为什么用"U +"来指定Unicode代码点?

为什么Unicode代码点显示为 U+ ? 例如,U+2202代表字符∂. 为什么不U-(连字符或连字符)或其他内容? 解决方案 字符"U +"是MULTISET UNION“⊎" U + 228E字符(其中带有加号的U型联合符号)的ASCII化版本),这是为了将Unicode象征为字符集的并集.请参见 Unicode邮件列表中的肯尼斯·惠斯勒(Kenne ..
发布时间:2020-07-19 22:31:16 其他开发

为什么Unicode限制为0x10FFFF?

为什么最大Unicode代码点限制为0x10FFFF?是否可以在此代码点上方表示Unicode-例如0x10FFFF + 0x000001 = 0x110000-通过诸如UTF-16,UTF-8之类的任何编码方案? 解决方案 这是因为UTF-16. BMP以外的字符使用因此,字符总数为 0x100000 + 0x10000 = 0x110000 ,这允许代码点从0到0x110000-1 = ..
发布时间:2020-07-19 22:31:05 其他开发

实际使用中最常见的非BMP Unicode字符是什么?

根据您的经验,到目前为止,哪些Unicode字符,代码点,范围超出BMP(基本多语言平面)是最常见的?这些是在UTF-8中需要4个字节或在UTF-16中需要替代的字节. 我希望答案是名称中使用的中文和日语字符,但不包含在最广泛的CJK多字节字符集中,但是在我最忙的项目中,英语维基词典中,我们发现到目前为止,哥特式字母更为普遍. 更新 我编写了一些软件工具来扫描整个Wikipedi ..
发布时间:2020-07-19 22:29:57 其他开发