utf-16 第2页 - IT屋-程序员软件开发技术分享社区

Windows和Linux下UTF-16转UTF-8，C语言

我想知道是否有推荐的“跨"Windows 和 Linux 方法来将字符串从 UTF-16LE 转换为 UTF-8?还是应该针对每种环境使用不同的方法? 我设法在谷歌上搜索了一些对 'iconv' 的引用，但由于某些原因，我找不到基本转换的示例，例如 - 将 wchar_t UTF-16 转换为 UTF-8. 任何人都可以推荐一种“交叉"的方法，如果您知道参考资料或带有示例的指南，将不胜 ..

发布时间：2021-12-26 13:53:53 c unicode utf-8 utf-16 其他开发

将 UTF-16 转换为 UTF-8 并删除 BOM?

我们有一个数据输入人员，他在 Windows 上以 UTF-16 编码，并希望使用 utf-8 并删除 BOM.utf-8 转换有效，但 BOM 仍然存在.我将如何删除它?这是我目前拥有的: batch_3={'src':'/Users/jt/src','dest':'/Users/jt/dest/'}批次=[batch_3]b 分批:s_files=os.listdir(b['src'])对于 ..

发布时间：2021-12-26 13:49:32 python unicode utf-8 utf-16 Python

greping 二进制文件和 UTF16

标准 grep/pcregrep 等可以方便地用于 ASCII 或 UTF8 数据的二进制文件 - 有没有一种简单的方法让它们也尝试 UTF16(最好同时，但会这样做)? 无论如何，我想要获取的数据都是 ASCII(库中的引用等)，只是找不到，因为有时任何两个字符之间有 00，有时没有. 我看不出有什么方法可以在语义上完成它，但是这些 00 应该可以解决问题，除非我无法在命令行上轻松使 ..

发布时间：2021-12-26 13:48:47 unicode grep utf-16 其他开发

Big Endian 和 Little Endian 字节顺序的区别

Big Endian 和 Little Endian Byte 顺序有什么区别? 这两个似乎都与Unicode和UTF16有关.我们究竟在哪里使用它? 解决方案 Big-Endian (BE)/Little-Endian (LE) 是组织多字节单词的两种方式.例如在UTF-16中用两个字节表示一个字符时，有两种方法可以将字符0x1234表示为一串字节(0x00-0xFF): 字节索 ..

发布时间：2021-12-26 13:47:26 unicode utf-16 endianness 其他开发

UTF-8 和 UTF-16 的区别?

UTF-8 和 UTF-16 的区别?为什么我们需要这些? MessageDigest md = MessageDigest.getInstance("SHA-256");String text = "这是一段文字";md.update(text.getBytes("UTF-8"));//如果需要，将其更改为“UTF-16"byte[] 摘要 = md.digest(); 解决方案我相信网 ..

发布时间：2021-12-26 13:44:27 java unicode utf-8 utf-16 utf Java开发

为什么 Java char 原语占用 2 个字节的内存?

Java char 原始数据类型为 2 个字节，而 C 为 1 个字节，这有什么原因吗? 谢谢解决方案 Java 最初设计时，预计任何 Unicode 字符都适合 2 个字节(16 位)，因此 char 和Character 是相应设计的.事实上，Unicode 字符现在最多需要 4 个字节.因此，内部 Java 编码 UTF-16 要求补充字符使用 2 个代码单元.基本多语言平面 ..

发布时间：2021-12-26 13:42:37 java unicode utf-16 widechar Java开发

以二进制模式将 utf16 写入文件

我正在尝试以二进制模式使用 ofstream 将 wstring 写入文件，但我认为我做错了什么.这是我试过的: ofstream outFile("test.txt", std::ios::out | std::ios::binary);wstring 你好 = L"你好";outFile.write((char *) hello.c_str(), hello.length() * sizeo ..

发布时间：2021-12-26 13:37:30 c++ unicode utf-16 C/C++开发

BMP 之外的 JavaScript 字符串

BMP 是基本多语言平面根据 JavaScript:好的部分: JavaScript 是在 Unicode 是 16 位字符集的时候构建的，因此 JavaScript 中的所有字符都是 16 位宽. 这让我相信 JavaScript 使用 UCS-2(而不是 UTF-16！)并且最多只能处理 U+FFFF 的字符. 进一步调查证实了这一点: >String.fromC ..

发布时间：2021-12-26 13:31:17 javascript unicode utf-16 surrogate-pairs astral-plane 前端开发

手动将 unicode 代码点转换为 UTF-8 和 UTF-16

我即将参加大学编程考试，其中一个部分是关于 unicode 的. 我已经检查了所有的答案，我的讲师没用，所以没有帮助，所以这是你们可能提供帮助的最后手段. 问题将类似于: 字符串 'mЖ丽' 具有这些 unicode 代码点 U+006D、U+0416 和U+4E3D，用十六进制写的答案，手动编码字符串转换为 UTF-8 和 UTF-16. 在我试图解决这个问题时，任何 ..

发布时间：2021-12-26 13:30:48 unicode utf-8 utf-16 其他开发

UTF-8、UTF-16 和 UTF-32

UTF-8、UTF-16 和 UTF-32 之间有什么区别? 我知道它们都将存储 Unicode，并且每个都使用不同数量的字节来表示一个字符.选择一个比另一个有优势吗? 解决方案 UTF-8 在 ASCII 字符代表文本块中的大部分字符的情况下具有优势，因为 UTF-8 将这些字符编码为 8 位(像 ASCII).另一个优点是仅包含 ASCII 字符的 UTF-8 文件具有与 ASC ..

发布时间：2021-12-26 13:26:10 unicode utf-8 utf-16 utf utf-32 其他开发

什么是 Unicode、UTF-8、UTF-16?

Unicode 的基础是什么?为什么需要 UTF-8 或 UTF-16?我在谷歌上研究过这个，也在这里搜索过，但我不清楚. 在 VSS 中进行文件比较时，有时会出现一条消息，指出两个文件的 UTF 不同.为什么会这样? 请用简单的语言解释. 解决方案为什么我们需要 Unicode? 在(不是太早)早期，所有存在的都是 ASCII.这没关系，因为所需要的只是一些控制字符、标点 ..

发布时间：2021-12-26 13:23:19 unicode encoding utf-8 utf-16 其他开发

在没有外部库的情况下将 utf-16 文本文件正确读入字符串?

我从一开始就一直在使用 StackOverflow，有时也想提出问题，但我总是要么自己弄清楚，要么最终找到答案……直到现在.这感觉应该相当简单，但我已经在互联网上徘徊了几个小时没有成功，所以我转向这里: 我有一个非常标准的 utf-16 文本文件，混合了英文和中文字符.我希望这些字符以字符串结尾(从技术上讲，是 wstring).我已经看到很多相关问题的回答(这里和其他地方)，但他们要么希望 ..

发布时间：2021-12-17 23:54:14 c++ winapi unicode utf-16 C/C++开发

Java 如何在其 16 位字符类型中存储 UTF-16 字符?

根据 Java SE 7规范，Java使用Unicode UTF-16标准来表示字符.将 String 想象成一个简单的数组 16 位变量，每个变量包含一个字符，生活很简单. 不幸的是，有些代码点 16 位根本不够(我相信它是所有 Unicode 字符的 16/17).所以在 String 中，这不会带来直接的问题，因为当想要使用额外的两个字节存储这些 ~1.048.576 个字符之一时 ..

发布时间：2021-12-13 21:26:42 java variables unicode encoding utf-16 Java开发

UTF-16 到 UTF-8 的转换(用于 Windows 中的脚本)

将 UTF-16 文件转换为 UTF-8 的最佳方法是什么?我需要在 cmd 脚本中使用它. 解决方案有一个 GNU 工具 recode 也可以在 Windows 上使用.例如重新编码utf16..utf8 text.txt ..

发布时间：2021-12-13 17:59:52 windows utf-8 batch-file cmd utf-16 其他开发

我可以让 git 将 UTF-16 文件识别为文本吗?

我正在 git 中跟踪 Virtual PC 虚拟机文件 (*.vmc)，在进行更改后，git 将文件标识为二进制文件，不会对我进行区分.我发现该文件是用 UTF-16 编码的. 可以教 git 识别此文件是文本并适当处理它吗? 我在 Cygwin 下使用 git，core.autocrlf 设置为 false.如果需要，我可以在 UNIX 下使用 mSysGit 或 git. ..

发布时间：2021-12-06 09:39:52 git unicode character-encoding diff utf-16 其他开发

Java 对 String 的内部表示是什么?修改过的 UTF-8?UTF-16?

我搜索了 Java 对 String 的内部表示，但有两种材料看起来可靠但不一致. 一个是: http://www.codeguru.com/cpp/misc/misc/multi-languagesupport/article.php/c10451 它说: Java 使用 UTF-16 作为内部文本表示，并支持对 UTF-8 进行非标准修改以进行字符串序列化. 另一 ..

发布时间：2021-11-25 15:16:37 java string encoding utf-8 utf-16 Java开发

什么是“代理对"?在爪哇?

我正在阅读 StringBuffer 的文档，特别是 reverse() 方法.该文档提到了一些关于代理对的内容.在这种情况下什么是代理对?什么是 low 和 high 代理? 解决方案术语“代理对"是指在 UTF-16 编码方案中对具有高代码点的 Unicode 字符进行编码的方法. 在 Unicode 字符编码中，字符被映射到 0x0 到 0x10FFFF 之间的值. 在 ..

发布时间：2021-11-25 14:11:40 java unicode utf-16 surrogate-pairs Java开发

Apache commons IO 如何将我的 XML 标头从 UTF-8 转换为 UTF-16?

我使用的是 Java 6.我有一个 XML 模板，开头是这样的但是，当我使用以下代码(使用 Apache Commons-io 2.4)解析并输出它时，我注意到…… 文档 doc = null;InputStream in = this.getClass().getClassLoader().getResourceAsStream(“my-template.xml");尝试{byte[ ..

发布时间：2021-11-11 23:29:46 java utf-8 apache-commons utf-16 document-conversion Java开发

将 UTF8 数据导出到 Excel 的最佳方法是什么?

所以我们有这个支持 UTF8 数据的网络应用程序.万岁UTF8.我们可以将用户提供的数据导出为 CSV 没问题 - 那时它仍然是 UTF8.问题是当您在 Excel 中打开典型的 UTF8 CSV 时，它会将其读取为 ANSII 编码文本，并相应地尝试将 ø 和 ü 等两字节字符读取为两个单独的字符，但最终会失败. 所以我做了一些挖掘(Intervals 的人有一个有趣的帖子关于它在这里) ..

发布时间：2021-09-15 19:39:53 xml excel csv utf-8 utf-16 其他开发

Objective C，如何解码这个 UTF16 字符串?

我有一个这样的字符串， NSString *u = @"%u9ED1%u9AD4"; 我需要解码这个 UTF16 字符串才能得到下面的 unicode 实体: 黑体我正在尝试: NSData *fontNameData = [@"%u9ED1%u9AD4" dataUsingEncoding:NSUTF16StringEncoding];NSString *l = [[NSString ..

发布时间：2021-09-15 19:39:34 objective-c unicode utf-16 移动开发

utf-16相关内容