unicode相关内容

对 Unicode 和多字节文章的困惑

通过引用 Joel 的文章 有些人在认为 Unicode 只是一个每个字符占用的 16 位代码16 位,因此有 65,536可能的字符.这不是,实际上,正确. 读完整篇文章后,我的观点是,如果有人告诉你,他的文本是 unicode,你将不知道他的每个角色占用了多少内存空间.他必须告诉你,“我的 unicode 文本是用 UTF-8 编码的",那么只有你知道他的每个角色占用了多少内存空间 ..
发布时间:2022-01-18 13:32:52 其他开发

我在哪里可以找到语言 + 地区代码的列表?

我已经用谷歌搜索(好吧,实际上是 DuckDuckGo'ed),直到我脸色发青,但找不到 en-GB 或 fr 类型的语言代码列表-CA 任何地方. 有关于组件的优秀资源,特别是 W3C I18n 页面,但是我希望有一个简单的按字母顺序排列的列表,如果可能的话,相当规范(类似于 这个).找不到. 谁能指出我正确的方向?非常感谢! 解决方案 这可以在 Unicode 的通用语言环 ..
发布时间:2022-01-18 13:27:50 其他开发

为什么 Perl 对 Unicode 字符的字符串操作会给字符串添加垃圾?

Perl: $string =~ s/[áàâã]/a/gi;#此行总是在前面加上一个“a"$string =~ s/[éèêë]/e/gi;$string =~ s/[úùûü]/u/gi; 这个正则表达式应该将“été"转换成“ete".相反,它将其转换为“aetae".换句话说,它为每个匹配的元素添加一个“a".甚至“à"也被转换为“aa". 如果我把第一行改成这个 $strin ..
发布时间:2022-01-18 13:13:33 其他开发

Unicode CSV 文件中未显示孟加拉语文本

我有一个孟加拉语的 Excel 文件.要正确显示孟加拉语文本,我需要在 PC 上安装孟加拉语字体. 我使用 Office 2010 将 Excel 文件转换为 CSV.但它只显示“?"标记而不是孟加拉语字符.然后我使用谷歌文档进行转换,同样的问题,但不可读的字符而不是'?'.我将该文件的摘录粘贴到一个 HTML 文件中,并试图在我的浏览器中查看它,但没有成功. 我应该如何从孟加拉语的 ..
发布时间:2022-01-18 13:12:30 数据库

日文字符的正则表达式

我正在使用 Struts 进行国际化.我想为日语和英语用户编写 Javascript 验证.我知道英语的正则表达式,但不知道日语用户.是否可以为基于Unicode验证的两个用户编写一个正则表达式? 请帮帮我. 解决方案 这是一个正则表达式,可用于匹配所有英文字母数字字符、日文片假名、平假名、多字节字母数字(hankaku 和 zenkaku)和破折号: /[一-龠]+|[ぁ-ゔ]+ ..
发布时间:2022-01-18 13:10:53 前端开发

关于 Unicode,我需要了解什么?

作为应用程序开发人员,我需要了解 Unicode 吗? 解决方案 Unicode 是一种标准,它为书面交流中使用的字形定义数字代码.或者,正如他们自己所说的那样: 数字标准所用字符的表示在写下世界上所有的语言.Unicode 提供了统一的用于存储、搜索和交换任何语言的文本.它被所有现代计算机使用并且是处理文本的基础互联网.Unicode 被开发和由 Unicode 联盟维护. ..
发布时间:2022-01-18 13:09:24 其他开发

正则表达式可以与不同的语言一起使用吗?

当然,对于正则表达式来说,英语是很容易理解的,因为它最初是用于/用于开发的: 正则表达式能理解这个字符集吗? 法语进入一些我不确定如何匹配的重音字符 - 即 è 和 e 是否都被正则表达式视为单词字符? Les expressions régulières peuvent comprendre ce jeu de caractères? 日语不包含我所知道的正则表达式单词字 ..
发布时间:2022-01-18 13:05:06 其他开发

Ruby 1.9:我怎样才能正确地大写 &小写多字节字符串?

因此 matz 决定在 ruby​​ 1.9.1 中将 upcase 和 downcase 限制为 /[AZ]/i.p> ActiveSupport::Multibyte 长期以来在 ruby​​ 1.8.x 中通过 String#mb_chars 实现了出色的 i18n 大小写. 但是,在 ruby​​ 1.9.1 下尝试时,它似乎不起作用.这是我编写的一个简单的测试脚本,以及我得到的输 ..
发布时间:2022-01-18 13:00:04 其他开发

什么是“错"?使用 C++ wchar_t 和 wstrings?宽字符有哪些替代方法?

我在 C++ 社区中看到很多人(尤其是 freenode 上的##c++)对 wstrings 和 wchar_t 的使用以及它们在 windows 中的使用感到不满api.wchar_t 和 wstring 到底有什么“错误",如果我想支持国际化,宽字符有哪些替代方案? 解决方案 什么是wchar_t? wchar_t 的定义使得任何语言环境的 char 编码都可以转换为 wcha ..
发布时间:2022-01-18 12:56:23 C/C++开发

Unicode 字符无法在 HTML5 画布中正确呈现

我正在尝试使用 HTML5 画布元素呈现 unicode 高音谱号.使用正确的字符代码(特别是 1D120)时,它在 HTML 中呈现良好,但是当我尝试在画布内使用它时,会出现一个奇怪的字符 以下代码在我的 javascript 文件中,它在画布上发挥了它的魔力... var canvas = document.getElementById('canvas');var context ..
发布时间:2022-01-17 12:00:29 前端开发

SQL Server 在 nvarchar 中搜索 &文本

我在 VS2010、C# ASP.NET Web 应用程序中使用 SQL Server 2008 作为我的数据库引擎.我的项目是波斯语(波斯语),所以我使用 nvarchar 和 ntext 作为我的数据类型. 我使用以下查询从我的数据库中查找行,但没有返回任何内容,而我有一行包含指定的关键字.当然,我的关键字是波斯语(unicode). 这里出了什么问题?是因为使用波斯语吗?如何在包 ..
发布时间:2022-01-16 23:18:11 其他开发

删除经典 ASP/VBScript 中的四字节 UTF-8 字符(MySQL 相关)

我已经花了大约 18 个小时尝试不同的东西并四处寻找,最后我放弃了,不得不问你们. 背景故事:我终于将旧的 MS Access 数据库迁移到 MySQL(版本 5.6.16-log). 问题:Access 数据库中的某些 Unicode 文本包含四个字节 (UTF-8). MySQL still 在插入四个字节的 UTF-8 字符时出现问题.这个问题越来越老了,我惊讶地发现它还没 ..
发布时间:2022-01-16 15:53:05 数据库

MariaDB/MySQL 中 utf8mb4_unicode_ci 和 utf8mb4_unicode_520_ci 排序规则之间的区别?

我登录 MariaDB/MySQL 并输入: 显示排序; 我在可用的排序规则中看到 utf8mb4_unicode_ci 和 utf8mb4_unicode_520_ci.这两个排序规则有什么区别,我们应该使用哪个排序规则? 解决方案 好吧,您可以阅读文档中的差异.我不能告诉你应该使用什么,因为每个项目都不一样. 10.1.3 排序规则命名约定 MySQL 排序规则名称遵循 ..
发布时间:2022-01-15 20:04:47 数据库

如何使用 PHP 转换 JSON 数据中的十六进制代码

我有一些由 Drupal CMS 生成的内容,其中包含以下字符串: "... \n 精通\x3cstrong\x3medical\x3c/strong\x3e术语;打字技巧在 40 wpm.出色的沟通和...涉及访问敏感和/或机密\x3cstrong\x3emedical\x3c/strong\x3e 信息.必须在决策和...方面表现出领导能力." 我正在尝试将此数据作为 json 传输,但无 ..
发布时间:2022-01-15 10:41:22 PHP

Android 上的 kivy/Python 上缺少 Unicode 编解码器?

我有一个在 kivy 下运行的程序,它在 Windows 上运行良好,但在 Android 上打开文件失败(两个平台上都是 1.8.0).奇怪的是,当我明确要求 utf-8 时,错误消息表明它正在尝试解码 ASCII;该文件的任何地方都没有 0xFF 字符 - 我使用 od 实用程序进行了检查. 代码: 尝试:Logger.info('Mark: 打开文件' + repr(filename ..
发布时间:2022-01-15 09:57:49 移动开发