unicode相关内容

UTF-8 编码如何识别单字节和双字节字符?

最近我遇到了一个关于字符编码的问题,当我深入研究字符集和字符编码时,我想到了这个疑问.UTF-8 编码最受欢迎,因为它向后兼容 ASCII.因为 UTF-8是变长编码格式,它是如何区分单字节和双字节字符的.例如,“A"存储为“410754"(A的Unicode是41,阿拉伯字符的Unicode是0754.编码如何识别41是一个字符和0754又是一个二字节字符?为什么不把4107当作双字节字符,把5 ..
发布时间:2022-01-07 21:41:15 其他开发

Unicode 字符集 &在浏览器中编码

我试图找出在浏览器中如何实现字符集/编码,特别是 Unicode. 集合/编码是在每个浏览器中单独实现还是特定于操作系统? 是否可以找出正在使用的 Unicode Character Db (UCD) 版本? UCD 更新如何推送到每个浏览器/操作系统?(它是通过自动更新推出的,还是只是针对您使用的任何版本的浏览器/操作系统进行设置?) 每个浏览器/操作系统制造商的字符集/编码信息的链 ..
发布时间:2022-01-07 21:39:44 其他开发

如何在 Python 中处理 Unicode(非 ASCII)字符?

我正在使用 Python 进行编程,我正在从网页通过 urllib2 库.问题是该页面可以为我提供非 ASCII 字符,例如 'ñ'、'á' 等.就在 urllib2code> 得到这个字符,它会引发一个异常,像这样: 文件“c:\Python25\lib\httplib.py",第711行,发送self.sock.sendall(str)文件“",第 1 行,在 sendall ..
发布时间:2022-01-07 21:38:33 Python

将 Unicode 转换为用于 vCard 的 Windows-1252

我正在尝试用 C# 编写一个程序,该程序会将包含多个联系人的 vCard (VCF) 文件拆分为每个联系人的单独文件.我知道大多数手机需要将电子名片保存为 ANSI (1252) 才能读取它们. 但是,如果我使用 StreamReader 打开一个 VCF 文件,然后使用 StreamWriter(设置 1252 作为编码格式)将其写回,所有特殊字符如 å、æ 和 ø 被写成 ?.ANSI ..
发布时间:2022-01-07 21:37:36 C#/.NET

如何在php页面上显示日文字符?

我正在尝试在 PHP 页面上显示日语字符.没有从数据库加载,只是存储在一个语言文件中并被回显. 我遇到了一个奇怪的场景.我使用 UTF-8 正确设置了页面,并在我的本地 WAMP 服务器上测试了一个示例页面,它可以正常工作. 当我测试我们的开发和生产服务器时,字符显示不正确. 这让我相信这是 php.ini 中的一个设置.但是我还没有找到太多关于此的信息,所以我不确定这是否是问题 ..
发布时间:2022-01-07 21:35:52 PHP

解压 mojibake

当您解码错误的字符时,您如何识别原始字符串的可能候选者? Ä×èÈÄÄî▒è¤ô_üiâAâjâüâpâXüj_10òb.png 我知道这个图像文件名应该是一些日文字符.但是由于对 urllib 引用/取消引用、编码和解码 iso8859-1、utf8 的各种猜测,我一直无法取消并获得原始文件名. 腐败是可逆的吗? 解决方案 您可以使用 chardet(使用 pip 安装): ..
发布时间:2022-01-07 21:35:41 Python

如何通过指针读取 UTF-8 字符?

假设我在内存中存储了 UTF-8 内容,如何使用指针读取字符?我想我需要注意指示多字节字符的第 8 位,但是我究竟如何将序列转换为有效的 Unicode 字符?另外,wchar_t 是存储单个 Unicode 字符的正确类型吗? 这是我的想法: wchar_t readNextChar (char*& p){wchar_t unicodeChar;字符 ch = *p++;如果 ((ch ..
发布时间:2022-01-07 21:31:59 C/C++开发

Python:清理 unicode 的字符串?

可能的重复: Python UnicodeDecodeError - 我误解了编码吗? 我有一个字符串,我正试图确保 unicode() 函数的安全: >>>s = " foo "bar bar "weasel">>>s.encode('utf-8', '忽略')回溯(最近一次调用最后一次):文件“",第 1 行,在 中s.encode('utf- ..
发布时间:2022-01-07 21:30:04 Python

情节标题中的斜体希腊字母/乳胶式数学

我想在 R 的情节标题中创建乳胶风格的数学.绘图数学工具 有一个有用但有限的表达式子集,它们可以显示,并使用非乳胶语法和样式. 例如,我想在图的标题中打印方程 $\mathrm{d} \mathbf{x} = a [\theta - \mathbf{x}] \mathrm{d} t$,并且仍然评估某些变量的值.我最好的解决方案是非常麻烦: lambda 或 require(ggplo ..
发布时间:2022-01-07 21:29:09 其他开发

为什么这个 LSEP 符号显示在 Chrome 而不是 Firefox 或 Edge 上?

因此,此网页使用这些符号呈现,并且在整个网站/应用程序中都可以找到它们,但在其他网站上找不到.谁能告诉我 这个符号是什么? 为什么它只显示在一个浏览器中? 解决方案 那个字符是 U+2028 Line Separator,是一种换行符.可以将其视为 HTML 的 的 Unicode 等价物. 至于为什么会出现在这里:我的猜测是内部数据库使用 LSEP 不会与文字换行 ..

处理 Python unicode 字符串中错误编码的字符

我正在处理由 python-lastfm 库返回的 unicode 字符串. 我假设在途中的某个地方,库编码错误并返回一个可能包含无效字符的 unicode 字符串. 例如,我在变量 a 中期望的原始字符串是“Glück" >>> 一个你'Gl\xfcck'>>> 打印一个回溯(最近一次调用最后一次):文件“",第 1 行,在UnicodeEncodeError: 'ascii' 编 ..
发布时间:2022-01-07 21:23:58 Python

从 Windows 和 Linux 读取文件会产生不同的结果(字符编码?)

目前我正在尝试读取一个 mime 格式的文件,其中包含一些 png 的二进制字符串数据. 在 Windows 中,读取文件会给我正确的二进制字符串,这意味着我只需复制字符串并将扩展名更改为 png 即可看到图片. 在 Windows 中读取文件后的示例如下: --fh-mms-multipart-next-part-1308191573195-0-53229内容类型:image/p ..
发布时间:2022-01-07 21:21:27 Java开发

编码给出“'ascii'编解码器无法编码字符......序数不在范围内(128)";

我正在处理 Django RSS 阅读器项目 这里. RSS 提要会显示类似“OKLAHOMA CITY (AP) — James Harden let"的内容.RSS 提要的编码读取 encoding="UTF-8" 所以我相信我在下面的代码片段中将 utf-8 传递给 markdown.em 破折号是它窒息的地方. 我收到 Django 错误“'ascii' codec can't ..
发布时间:2022-01-07 21:21:20 Python

Java char 以什么编码存储?

Java char 类型是否保证以任何特定编码存储? 编辑:我错误地表述了这个问题.我想问的是char文字是否保证使用任何特定的编码? 解决方案 “存储"在哪里?Java 中的所有字符串都以 UTF-16 表示.当写入文件、通过网络发送或其他任何方式时,它会使用您指定的任何字符编码发送. 编辑:专门针对 char 类型,请参阅 字符文档.具体来说:“char 数据类型..... ..
发布时间:2022-01-07 21:20:29 Java开发

如何检测“"(unicode的组合)在c++字符串中

我试图检测一些 Unicode 字符的组合(如 ​)来清理字符串,对于单个 Unicode 字符,它正在检测但未检测到 Unicode 组合. 这些字符串我用来从另一个需要清理的 HTML 页面制作 HTML 页面.我只想清理具有这种在浏览器的 html 页面中甚至不可见的 unicode 的字符串. 以下是示例代码: void detect_Unicode(string& st ..
发布时间:2022-01-07 21:16:20 C/C++开发

为什么 Unicode 被限制为 0x10FFFF?

为什么最大 Unicode 代码点被限制为 0x10FFFF?是否可以在此代码点上方表示 Unicode - 例如0x10FFFF + 0x000001 = 0x110000 - 通过任何编码方案,如 UTF-16、UTF-8? 解决方案 这是因为 UTF-16. 基本多语言平面 (BMP) 之外的字符使用 代理对 UTF-16 中的第一个代码单元 (CU) 位于 0xD800–0xDBF ..
发布时间:2022-01-07 21:15:31 其他开发