utf-32相关内容

utf8_general_ci 或 utf8mb4 还是...?

utf16 还是 utf32?我正在尝试以多种语言存储内容.一些语言使用双宽字体(例如,日文字体通常是英文字体的两倍).我不确定我应该使用哪种数据库.有关这四个字符集之间差异的任何信息... 解决方案 MySQL的utf32和utf8mb4(以及标准的UTF-8)可以直接存储指定的任意字符通过 Unicode;前者的大小固定为每个字符 4 个字节,而后者的大小在每个字符 1 到 4 个字节 ..
发布时间:2022-01-11 11:11:19 其他开发

UTF-8、UTF-16 和 UTF-32

UTF-8、UTF-16 和 UTF-32 之间有什么区别? 我知道它们都将存储 Unicode,并且每个都使用不同数量的字节来表示一个字符.选择一个比另一个有优势吗? 解决方案 UTF-8 在 ASCII 字符代表文本块中的大部分字符的情况下具有优势,因为 UTF-8 将这些字符编码为 8 位(像 ASCII).另一个优点是仅包含 ASCII 字符的 UTF-8 文件具有与 ASC ..
发布时间:2021-12-26 13:26:10 其他开发

记事本可以读取UTF-32吗?

这些字节代表UTF-32LE中的单词"hi": FF FE 00 00 68 00 00 00 69 00 00 00 但是,这是记事本显示的内容: 解决方案 记事本不支持UTF-32,仅支持ANSI,UTF-8和UTF-16.它会将前2个字节解释为UTF-16LE BOM,而不是将前4个字节解释为UTF-32LE BOM,因此文件字节被解释为 FF FE 00 00 68 ..
发布时间:2020-07-26 04:59:26 其他开发

为什么没有UTF-24?

可能重复: 为什么使用UTF-32存在,而只需要21位就可以对每个字符进行编码? 在UTF-32中,最大Unicode代码点为0x10FFFF. UTF-32具有21个信息位和11个多余的空白位.那么,为什么没有用于将每个代码点存储在3个字节而不是4个字节中的UTF-24编码(即,删除了高字节的UTF-32)? 解决方案 好吧,事实是:2007年提出了UTF-24的建议: h ..
发布时间:2020-07-26 04:58:20 其他开发

如何创建一个带有代理对的字符串?

我看到了这篇文章在乔恩·斯凯特(Jon Skeet)的博客中,他谈到了字符串反转.我想尝试一下他向我展示的示例,但是它似乎可以工作……这使我相信我不知道如何创建包含替代对的字符串,而该替代对实际上会导致字符串反转失败.实际如何创建带有代理对的字符串,以便我自己可以看到失败? 解决方案 术语“代理对"是指在UTF-16编码方案中对具有高代码点的Unicode字符进行编码的方法(请参阅在Uni ..
发布时间:2020-07-25 22:42:23 C#/.NET

Windows上的std :: wstring是否支持UTF-16和UTF-32?

我正在学习Unicode,还有一些我希望得到解答的问题. 1)我已经读过在Linux上, std :: wstring 是4字节,而在Windows上是2字节.这是否意味着Linux内部支持是 UTF-32 而Windows是 UTF-16 ? 2)std :: wstring的使用与std :: string接口的使用非常相似吗? 3)VC ++是否支持使用4字节的std :: ..
发布时间:2020-07-13 04:14:44 C/C++开发

什么字符编码最适合跨国公司

如果您有一个要翻译成世界上每种语言的网站,并因此拥有一个包含所有这些翻译的数据库,哪种字符编码将是最佳选择? UTF-128? 如果是这样,所有浏览器都能理解所选的编码吗? 字符编码是直接实现还是存在隐藏因素? 谢谢. 解决方案 如果要为Web内容支持多种语言,则应使用覆盖整个Unicode范围的编码.为此目的的最佳选择是UTF-8. UTF-8是网络的首选编码;来自 HTML ..
发布时间:2020-07-13 03:48:01 其他开发

Unicode是否有定义的最大代码点数?

为了了解Unicode代码点的最大数量,我阅读了许多文章,但是我没有找到最终答案. 我了解到Unicode代码点被最小化,以使所有UTF-8 UTF-16和UTF-32编码都能够处理相同数量的代码点.但是这个代码点数是多少? 我遇到的最常见的答案是Unicode代码点的范围是0x000000到0x10FFFF(1,114,112代码点),但我在其他地方也读到它是1,112,114代码点 ..
发布时间:2020-07-13 02:52:38 其他开发

UTF-8,UTF-16和UTF-32

UTF-8,UTF-16和UTF-32有什么区别? 我知道它们都将存储Unicode,并且每个都使用不同数量的字节来表示字符.选择一个而不是另一个有优势吗? 解决方案 在ASCII字符代表文本块中大多数字符的情况下,UTF-8具有优势,因为UTF-8将这些字符编码为8位(像ASCII).另一个优点是,仅包含ASCII字符的UTF-8文件具有与ASCII文件相同的编码. UTF- ..
发布时间:2020-07-13 02:30:06 其他开发

如何在C#中使用32位unicode字符?

也许我不需要32位字符串,但我需要表示32位字符 http://www.fileformat.info/info/unicode/char/1f4a9/index.htm 现在,我抓住了symbola字体和当我将其粘贴(在url或任何文本区域中)时可以看到该字符,因此我知道我对此有字体支持。 但是我如何在其中支持它我的C#/。NET应用程序? -编辑-我要添加一些内容。当我在. ..
发布时间:2020-05-30 22:15:37 C#/.NET

utf8_general_ci或utf8mb4或...?

utf16或utf32?我正在尝试以多种语言存储内容.一些语言使用双倍宽度的字体(例如,日语字体通常是英语字体的两倍).我不确定应该使用哪种数据库.关于这四个字符集之间差异的任何信息... 解决方案 MySQL的utf32和utf8mb4(以及标准UTF-8)可以直接存储Unicode指定的任何字符;前者是固定大小,每个字符4个字节,而后者是每个字符1-4个字节. utf8mb3和原 ..
发布时间:2020-05-03 04:39:45 其他开发

如何在java中将UTF-16转换为UTF-32?

我一直在寻找解决方案,但这个主题似乎并不多。我找到了建议的解决方案: String unicodeString = new String(“utf8 here”); byte [] bytes = String.getBytes(“UTF8”); String converted = new String(bytes,“UTF16”); 从utf8转换为utf16 ..
发布时间:2018-12-29 20:34:55 Java开发

如何在Python中获得可靠的unicode字符数?

Google App Engine使用Python 2.5.2,显然在启用UCS4的情况下。但GAE数据存储在内部使用UTF-8。因此,如果您将u'\\\�\\\�'(长度为2)存储到数据存储中,那么当您检索它时,会得到'\U0001d10c'(长度为1)。我试图在存储它之前和之后给出相同结果的方式来计算字符串中的Unicode字符数。因此,我在计算字符串长度并将其放入数据存储区之前,会尽快对字符 ..
发布时间:2018-05-03 18:35:21 Python

C#中没有UTF-32 big-endian?

在C#中, Encoding.UTF32 是UTF-32小端, Encoding.BigEndianUnicode 是UTF-16 big-endian, Encoding.Unicode 是UTF-16的小端。但是我找不到任何UTF-32 big-endian。 我正在开发一个简单的文本浏览器,不要以为UTF- 32 big-endian,但我也想准备,以防万一。 C#是否支持UTF ..
发布时间:2017-08-17 00:56:22 C#/.NET

UTF-16的要点是什么?

我从来没有理解UTF-16编码的要点。如果你需要能够将字符串当作随机访问(即代码点与代码单元相同),那么你需要UTF-32,因为UTF-16仍然是可变长度。如果你不需要这个,那么与UTF-8相比,UTF-16似乎是一个巨大的空间浪费。 UTF-16比UTF-8和UTF-32的优点是什么?为什么Windows和Java使用它作为其本地编码? 解决方案 当Windows NT被设计时,UTF- ..
发布时间:2016-11-19 14:33:39 其他开发

在C ++ 11中读/写/打印UTF-8

我一直在探索C ++ 11的新Unicode功能,而其他C ++ 11编码问题非常有帮助,我有一个关于以下代码片段的问题,来自 cppreference 。代码写入,然后立即读取以UTF-8编码保存的文本文件。 //写 std: :ofstream(“text.txt”) ..
发布时间:2016-11-06 02:11:47 C/C++

如何转换UTF-16为UTF-32和打印在C致使wchar_t的?

我试图打印出的UTF-16字符的字符串。我张贴了这个问题而回,并给出的建议是用iconv转换为UTF-32和打印为wchar_t的字符串。 我做了一些研究,并设法code以下内容: // * c是指向字符(UTF-16)我试图打印 //深圳是我想要打印输入的字节大小iconv_t侧脑室; 烧焦in_buf [深圳] 字符*的; 为size_t in_sz; 烧焦out_buf [SZ * 2 ..
发布时间:2016-08-19 14:01:07 C/C++