unicode 第12页 - IT屋-程序员软件开发技术分享社区

如何在 .NET 中猜测没有 BOM 的文件的编码?

我在 .NET 中使用 StreamReader 类，如下所示: using( StreamReader reader = new StreamReader( "c:\somefile.html", true ) {字符串文件文本 = reader.ReadToEnd();} 当文件有 BOM 时，这可以正常工作.我遇到了一个没有 BOM 的文件的麻烦.. 基本上我得到了胡言乱语.当我指定 E ..

发布时间：2022-01-07 21:43:15 c# .net unicode encoding character-encoding C#/.NET

UTF-8 编码如何识别单字节和双字节字符?

最近我遇到了一个关于字符编码的问题，当我深入研究字符集和字符编码时，我想到了这个疑问.UTF-8 编码最受欢迎，因为它向后兼容 ASCII.因为 UTF-8是变长编码格式，它是如何区分单字节和双字节字符的.例如，“A"存储为“410754"(A的Unicode是41，阿拉伯字符的Unicode是0754.编码如何识别41是一个字符和0754又是一个二字节字符?为什么不把4107当作双字节字符，把5 ..

发布时间：2022-01-07 21:41:15 unicode encoding utf-8 character-encoding 其他开发

Unicode 字符集 &在浏览器中编码

我试图找出在浏览器中如何实现字符集/编码，特别是 Unicode. 集合/编码是在每个浏览器中单独实现还是特定于操作系统? 是否可以找出正在使用的 Unicode Character Db (UCD) 版本? UCD 更新如何推送到每个浏览器/操作系统?(它是通过自动更新推出的，还是只是针对您使用的任何版本的浏览器/操作系统进行设置?) 每个浏览器/操作系统制造商的字符集/编码信息的链 ..

发布时间：2022-01-07 21:39:44 unicode cross-browser character-encoding 其他开发

如何在 Python 中处理 Unicode(非 ASCII)字符?

我正在使用 Python 进行编程，我正在从网页通过 urllib2 库.问题是该页面可以为我提供非 ASCII 字符，例如 'ñ'、'á' 等.就在 urllib2code> 得到这个字符，它会引发一个异常，像这样: 文件“c:\Python25\lib\httplib.py"，第711行，发送self.sock.sendall(str)文件“"，第 1 行，在 sendall ..

发布时间：2022-01-07 21:38:33 python unicode character-encoding Python

将 Unicode 转换为用于 vCard 的 Windows-1252

我正在尝试用 C# 编写一个程序，该程序会将包含多个联系人的 vCard (VCF) 文件拆分为每个联系人的单独文件.我知道大多数手机需要将电子名片保存为 ANSI (1252) 才能读取它们. 但是，如果我使用 StreamReader 打开一个 VCF 文件，然后使用 StreamWriter(设置 1252 作为编码格式)将其写回，所有特殊字符如 å、æ 和 ø 被写成 ?.ANSI ..

发布时间：2022-01-07 21:37:36 c# .net unicode character-encoding windows-1252 C#/.NET

如何在php页面上显示日文字符?

我正在尝试在 PHP 页面上显示日语字符.没有从数据库加载，只是存储在一个语言文件中并被回显. 我遇到了一个奇怪的场景.我使用 UTF-8 正确设置了页面，并在我的本地 WAMP 服务器上测试了一个示例页面，它可以正常工作. 当我测试我们的开发和生产服务器时，字符显示不正确. 这让我相信这是 php.ini 中的一个设置.但是我还没有找到太多关于此的信息，所以我不确定这是否是问题 ..

发布时间：2022-01-07 21:35:52 php unicode character-encoding PHP

解压 mojibake

当您解码错误的字符时，您如何识别原始字符串的可能候选者? Ä×èÈÄÄî▒è¤ô_üiâAâjâüâpâXüj_10òb.png 我知道这个图像文件名应该是一些日文字符.但是由于对 urllib 引用/取消引用、编码和解码 iso8859-1、utf8 的各种猜测，我一直无法取消并获得原始文件名. 腐败是可逆的吗? 解决方案您可以使用 chardet(使用 pip 安装): ..

发布时间：2022-01-07 21:35:41 python unicode character-encoding decoding mojibake Python

如何通过指针读取 UTF-8 字符?

假设我在内存中存储了 UTF-8 内容，如何使用指针读取字符?我想我需要注意指示多字节字符的第 8 位，但是我究竟如何将序列转换为有效的 Unicode 字符?另外，wchar_t 是存储单个 Unicode 字符的正确类型吗? 这是我的想法: wchar_t readNextChar (char*& p){wchar_t unicodeChar;字符 ch = *p++;如果 ((ch ..

发布时间：2022-01-07 21:31:59 c++ unicode utf-8 character-encoding C/C++开发

c ++如何在unicode/utf8中写入/读取ofstream

我有 UTF-8 文本文件，我正在使用简单的方式阅读: ifstream in("test.txt"); 现在我想创建一个新文件，它将是 UTF-8 编码或 Unicode.我怎样才能用 ofstream 或其他方式做到这一点?这将创建 ansi 编码. ofstream out(fileName.c_str(), ios::out | ios::app | ios::binary); 解 ..

发布时间：2022-01-07 21:31:27 c++ string unicode utf-8 character-encoding C/C++开发

Python:清理 unicode 的字符串?

可能的重复: Python UnicodeDecodeError - 我误解了编码吗? 我有一个字符串，我正试图确保 unicode() 函数的安全: >>>s = " foo "bar bar "weasel">>>s.encode('utf-8', '忽略')回溯(最近一次调用最后一次):文件“"，第 1 行，在中s.encode('utf- ..

发布时间：2022-01-07 21:30:04 python unicode character-encoding Python

情节标题中的斜体希腊字母/乳胶式数学

我想在 R 的情节标题中创建乳胶风格的数学.绘图数学工具有一个有用但有限的表达式子集，它们可以显示，并使用非乳胶语法和样式. 例如，我想在图的标题中打印方程 $\mathrm{d} \mathbf{x} = a [\theta - \mathbf{x}] \mathrm{d} t$，并且仍然评估某些变量的值.我最好的解决方案是非常麻烦: lambda 或 require(ggplo ..

发布时间：2022-01-07 21:29:09 r unicode utf-8 character-encoding ggplot2 其他开发

为什么这个 LSEP 符号显示在 Chrome 而不是 Firefox 或 Edge 上?

因此，此网页使用这些符号呈现，并且在整个网站/应用程序中都可以找到它们，但在其他网站上找不到.谁能告诉我这个符号是什么? 为什么它只显示在一个浏览器中? 解决方案那个字符是 U+2028 Line Separator，是一种换行符.可以将其视为 HTML 的的 Unicode 等价物. 至于为什么会出现在这里:我的猜测是内部数据库使用 LSEP 不会与文字换行 ..

发布时间：2022-01-07 21:27:15 unicode character-encoding ascii non-ascii-characters 其他开发

处理 Python unicode 字符串中错误编码的字符

我正在处理由 python-lastfm 库返回的 unicode 字符串. 我假设在途中的某个地方，库编码错误并返回一个可能包含无效字符的 unicode 字符串. 例如，我在变量 a 中期望的原始字符串是“Glück" >>> 一个你'Gl\xfcck'>>> 打印一个回溯(最近一次调用最后一次):文件“"，第 1 行，在UnicodeEncodeError: 'ascii' 编 ..

发布时间：2022-01-07 21:23:58 python string unicode character-encoding Python

从 Windows 和 Linux 读取文件会产生不同的结果(字符编码?)

目前我正在尝试读取一个 mime 格式的文件，其中包含一些 png 的二进制字符串数据. 在 Windows 中，读取文件会给我正确的二进制字符串，这意味着我只需复制字符串并将扩展名更改为 png 即可看到图片. 在 Windows 中读取文件后的示例如下: --fh-mms-multipart-next-part-1308191573195-0-53229内容类型:image/p ..

发布时间：2022-01-07 21:21:27 java unicode character-encoding png Java开发

编码给出“'ascii'编解码器无法编码字符......序数不在范围内(128)"；

我正在处理 Django RSS 阅读器项目这里. RSS 提要会显示类似“OKLAHOMA CITY (AP) — James Harden let"的内容.RSS 提要的编码读取 encoding="UTF-8" 所以我相信我在下面的代码片段中将 utf-8 传递给 markdown.em 破折号是它窒息的地方. 我收到 Django 错误“'ascii' codec can't ..

发布时间：2022-01-07 21:21:20 python django unicode character-encoding Python

Java char 以什么编码存储?

Java char 类型是否保证以任何特定编码存储? 编辑:我错误地表述了这个问题.我想问的是char文字是否保证使用任何特定的编码? 解决方案 “存储"在哪里?Java 中的所有字符串都以 UTF-16 表示.当写入文件、通过网络发送或其他任何方式时，它会使用您指定的任何字符编码发送. 编辑:专门针对 char 类型，请参阅字符文档.具体来说:“char 数据类型..... ..

发布时间：2022-01-07 21:20:29 java unicode character-encoding Java开发

如何检测“"(unicode的组合)在c++字符串中

我试图检测一些 Unicode 字符的组合(如 â€‹)来清理字符串，对于单个 Unicode 字符，它正在检测但未检测到 Unicode 组合. 这些字符串我用来从另一个需要清理的 HTML 页面制作 HTML 页面.我只想清理具有这种在浏览器的 html 页面中甚至不可见的 unicode 的字符串. 以下是示例代码: void detect_Unicode(string& st ..

发布时间：2022-01-07 21:16:20 html c++ string unicode character-encoding C/C++开发

为什么 Unicode 被限制为 0x10FFFF?

为什么最大 Unicode 代码点被限制为 0x10FFFF?是否可以在此代码点上方表示 Unicode - 例如0x10FFFF + 0x000001 = 0x110000 - 通过任何编码方案，如 UTF-16、UTF-8? 解决方案这是因为 UTF-16. 基本多语言平面 (BMP) 之外的字符使用代理对 UTF-16 中的第一个代码单元 (CU) 位于 0xD800–0xDBF ..

发布时间：2022-01-07 21:15:31 unicode character-encoding range codepoint 其他开发

从文本文件读取的第一个字符:ï»¿

如果我写了这段代码，我会得到它作为输出 --> 首先是:ï»¿然后是其他行尝试{BufferedReader br = new BufferedReader(new FileReader("myFile.txt"));字符串线；while (line = br.readLine() != null) {System.out.println(line);}br.close();} catch ( ..

发布时间：2022-01-07 21:14:09 java unicode character-encoding filereader Java开发

哪种是用于 DB、php 和 html 显示的日语的最佳字符编码?

我只想了解日语的语言翻译，1)哪个是数据库mysql的最佳编码2) 我可以在 HTML 页面中打印哪个/如何打印.?提前致谢. 解决方案 UTF-8 毫无疑问.将所有内容都设为 UTF-8.要将 UTF-8 编码的文本放在您的网页上，请在您的 HEAD 标签中使用它: ..

发布时间：2022-01-07 21:14:01 php mysql unicode character-encoding PHP

unicode相关内容