utf-16相关内容

Windows和Linux下UTF-16转UTF-8,C语言

我想知道是否有推荐的“跨"Windows 和 Linux 方法来将字符串从 UTF-16LE 转换为 UTF-8?还是应该针对每种环境使用不同的方法? 我设法在谷歌上搜索了一些对 'iconv' 的引用,但由于某些原因,我找不到基本转换的示例,例如 - 将 wchar_t UTF-16 转换为 UTF-8. 任何人都可以推荐一种“交叉"的方法,如果您知道参考资料或带有示例的指南,将不胜 ..
发布时间:2021-12-26 13:53:53 其他开发

将 UTF-16 转换为 UTF-8 并删除 BOM?

我们有一个数据输入人员,他在 Windows 上以 UTF-16 编码,并希望使用 utf-8 并删除 BOM.utf-8 转换有效,但 BOM 仍然存在.我将如何删除它?这是我目前拥有的: batch_3={'src':'/Users/jt/src','dest':'/Users/jt/dest/'}批次=[batch_3]b 分批:s_files=os.listdir(b['src'])对于 ..
发布时间:2021-12-26 13:49:32 Python

greping 二进制文件和 UTF16

标准 grep/pcregrep 等可以方便地用于 ASCII 或 UTF8 数据的二进制文件 - 有没有一种简单的方法让它们也尝试 UTF16(最好同时,但会这样做)? 无论如何,我想要获取的数据都是 ASCII(库中的引用等),只是找不到,因为有时任何两个字符之间有 00,有时没有. 我看不出有什么方法可以在语义上完成它,但是这些 00 应该可以解决问题,除非我无法在命令行上轻松使 ..
发布时间:2021-12-26 13:48:47 其他开发

Big Endian 和 Little Endian 字节顺序的区别

Big Endian 和 Little Endian Byte 顺序有什么区别? 这两个似乎都与Unicode和UTF16有关.我们究竟在哪里使用它? 解决方案 Big-Endian (BE)/Little-Endian (LE) 是组织多字节单词的两种方式.例如在UTF-16中用两个字节表示一个字符时,有两种方法可以将字符0x1234表示为一串字节(0x00-0xFF): 字节索 ..
发布时间:2021-12-26 13:47:26 其他开发

UTF-8 和 UTF-16 的区别?

UTF-8 和 UTF-16 的区别?为什么我们需要这些? MessageDigest md = MessageDigest.getInstance("SHA-256");String text = "这是一段文字";md.update(text.getBytes("UTF-8"));//如果需要,将其更改为“UTF-16"byte[] 摘要 = md.digest(); 解决方案 我相信网 ..
发布时间:2021-12-26 13:44:27 Java开发

为什么 Java char 原语占用 2 个字节的内存?

Java char 原始数据类型为 2 个字节,而 C 为 1 个字节,这有什么原因吗? 谢谢 解决方案 Java 最初设计时,预计任何 Unicode 字符都适合 2 个字节(16 位),因此 char 和Character 是相应设计的.事实上,Unicode 字符现在最多需要 4 个字节.因此,内部 Java 编码 UTF-16 要求补充字符使用 2 个代码单元.基本多语言平面 ..
发布时间:2021-12-26 13:42:37 Java开发

以二进制模式将 utf16 写入文件

我正在尝试以二进制模式使用 ofstream 将 wstring 写入文件,但我认为我做错了什么.这是我试过的: ofstream outFile("test.txt", std::ios::out | std::ios::binary);wstring 你好 = L"你好";outFile.write((char *) hello.c_str(), hello.length() * sizeo ..
发布时间:2021-12-26 13:37:30 C/C++开发

手动将 unicode 代码点转换为 UTF-8 和 UTF-16

我即将参加大学编程考试,其中一个部分是关于 unicode 的. 我已经检查了所有的答案,我的讲师没用,所以没有帮助,所以这是你们可能提供帮助的最后手段. 问题将类似于: 字符串 'mЖ丽' 具有这些 un​​icode 代码点 U+006D、U+0416 和U+4E3D,用十六进制写的答案,手动编码字符串转换为 UTF-8 和 UTF-16. 在我试图解决这个问题时,任何 ..
发布时间:2021-12-26 13:30:48 其他开发

UTF-8、UTF-16 和 UTF-32

UTF-8、UTF-16 和 UTF-32 之间有什么区别? 我知道它们都将存储 Unicode,并且每个都使用不同数量的字节来表示一个字符.选择一个比另一个有优势吗? 解决方案 UTF-8 在 ASCII 字符代表文本块中的大部分字符的情况下具有优势,因为 UTF-8 将这些字符编码为 8 位(像 ASCII).另一个优点是仅包含 ASCII 字符的 UTF-8 文件具有与 ASC ..
发布时间:2021-12-26 13:26:10 其他开发

什么是 Unicode、UTF-8、UTF-16?

Unicode 的基础是什么?为什么需要 UTF-8 或 UTF-16?我在谷歌上研究过这个,也在这里搜索过,但我不清楚. 在 VSS 中进行文件比较时,有时会出现一条消息,指出两个文件的 UTF 不同.为什么会这样? 请用简单的语言解释. 解决方案 为什么我们需要 Unicode? 在(不是太早)早期,所有存在的都是 ASCII.这没关系,因为所需要的只是一些控制字符、标点 ..
发布时间:2021-12-26 13:23:19 其他开发

在没有外部库的情况下将 utf-16 文本文件正确读入字符串?

我从一开始就一直在使用 StackOverflow,有时也想提出问题,但我总是要么自己弄清楚,要么最终找到答案……直到现在.这感觉应该相当简单,但我已经在互联网上徘徊了几个小时没有成功,所以我转向这里: 我有一个非常标准的 utf-16 文本文件,混合了英文和中文字符.我希望这些字符以字符串结尾(从技术上讲,是 wstring).我已经看到很多相关问题的回答(这里和其他地方),但他们要么希望 ..
发布时间:2021-12-17 23:54:14 C/C++开发

Java 如何在其 16 位字符类型中存储 UTF-16 字符?

根据 Java SE 7规范,Java使用Unicode UTF-16标准来表示字符.将 String 想象成一个 简单的数组 16 位变量,每个变量包含一个字符,生活很简单. 不幸的是,有些代码点 16 位根本不够(我相信它是所有 Unicode 字符的 16/17).所以在 String 中,这不会带来直接的问题,因为当想要使用 额外的两个字节存储这些 ~1.048.576 个字符之一时 ..
发布时间:2021-12-13 21:26:42 Java开发

我可以让 git 将 UTF-16 文件识别为文本吗?

我正在 git 中跟踪 Virtual PC 虚拟机文件 (*.vmc),在进行更改后,git 将文件标识为二进制文件,不会对我进行区分.我发现该文件是用 UTF-16 编码的. 可以教 git 识别此文件是文本并适当处理它吗? 我在 Cygwin 下使用 git,core.autocrlf 设置为 false.如果需要,我可以在 UNIX 下使用 mSysGit 或 git. ..
发布时间:2021-12-06 09:39:52 其他开发

什么是“代理对"?在爪哇?

我正在阅读 StringBuffer 的文档,特别是 reverse() 方法.该文档提到了一些关于代理对的内容.在这种情况下什么是代理对?什么是 low 和 high 代理? 解决方案 术语“代理对"是指在 UTF-16 编码方案中对具有高代码点的 Unicode 字符进行编码的方法. 在 Unicode 字符编码中,字符被映射到 0x0 到 0x10FFFF 之间的值. 在 ..
发布时间:2021-11-25 14:11:40 Java开发

将 UTF8 数据导出到 Excel 的最佳方法是什么?

所以我们有这个支持 UTF8 数据的网络应用程序.万岁UTF8.我们可以将用户提供的数据导出为 CSV 没问题 - 那时它仍然是 UTF8.问题是当您在 Excel 中打开典型的 UTF8 CSV 时,它会将其读取为 ANSII 编码文本,并相应地尝试将 ø 和 ü 等两字节字符读取为两个单独的字符,但最终会失败. 所以我做了一些挖掘(Intervals 的人有一个有趣的帖子 关于它在这里) ..
发布时间:2021-09-15 19:39:53 其他开发