utf-16 第3页 - IT屋-程序员软件开发技术分享社区

在 Windows perl 中流处理带有 BOM 和 Unix 行结尾的 UTF-16 文件

我需要使用 perl 以 UTF-16 little-endian 编码的 1Gb 文本文件进行流处理，该文件以 unix 样式结尾(即，只有 0x000A，流中没有 0x000D)和开头的 LE BOM.文件在 Windows 上处理(也需要 Unix 解决方案).通过流处理，我的意思是使用 while ()，逐行读取和写入.有一个命令行单行程序会很好: perl -pe "BEGIN { ..

发布时间：2021-09-15 19:39:31 perl unicode utf-16 其他开发

如何在不使用 BOM 的情况下识别不同的编码?

我有一个文件观察器，它正在从使用 utf-16LE 编码的不断增长的文件中抓取内容.写入它的第一位数据有可用的 BOM——我用它来识别针对 UTF-8 的编码(我输入的大多数文件都被编码).我捕获了 BOM 并重新编码为 UTF-8，这样我的解析器就不会吓坏了.问题在于，由于它是一个不断增长的文件，并非每一位数据都包含 BOM. 这是我的问题——无需在我拥有的每组数据前添加 BOM 字节(因 ..

发布时间：2021-09-15 19:39:28 java utf-8 utf-16 byte-order-mark Java开发

在 Python 中为 Windows 记事本创建 UTF-16 换行符

在 Ubuntu 中运行的 Python 2.7 中，此代码: f = open("testfile.txt", "w")f.write("第一行".encode("utf-16"))f.write(u"\r\n".encode("utf-16"))f.write("第二行".encode("utf-16")) 在 Gedit 中读取时在两行文本之间生成所需的换行符: 第一行二号线但是， ..

发布时间：2021-09-15 19:39:25 python windows unicode utf-16 notepad Python

使用 Ruby 和 Savon 发送 UTF-16 编码的 SOAP 请求

如何将请求编码为 UTF-16?这是我所拥有的: # 创建Savon客户端@client = Savon::Client.new 做wsdl.document = File.expand_path("account_list.wsdl", __FILE__)结尾# 设置头部编码@client.http.headers["Content-Type"] = "text/xml;charset=UT ..

发布时间：2021-09-15 19:39:21 ruby xml soap utf-16 savon 其他开发

Java 字符串的实例是否总是有效的 UTF-16?

对于任何给定的 Java 字符串 s，我想知道 s 表示的字符数组是否保证是有效的UTF-16 字符串，例如: final char[] ch = new char[s.length()];for (int i = 0; i ..

发布时间：2021-09-15 19:39:18 java unicode character-encoding char utf-16 Java开发

使用 UTF-16LE 编码的 Blob URL

我有这个字符串 %22%00%41%00%22%00%09%00%22%00%42%00%22%00 这是 UTF-16LE 等价于"A"\t"B".(\t 是制表符.) 我正在尝试构建一个 Blob，然后为其构建一个 URL，但输出未解码为正确的实体. var blob=new Blob([stringHere],{type:'text/csv;charset=UTF-16LE;'}); ..

发布时间：2021-09-15 19:39:15 javascript blob utf-16 前端开发

在 C++ 中读取 UTF-16 文件

我正在尝试使用 BOM 读取具有 UTF-16LE 编码的文件.我试过这个代码 #include #include #include #include int main() {std::wifstream fin("/home/asutp/test");fin.imbue(std::locale(fin.getloc(), new std::codecvt_ut ..

发布时间：2021-09-15 19:39:12 c++ utf-16 C/C++开发

XML 规范和 UTF-16

第 4.3.3 节和XML 1.0 规范的附录 Fa> 谈论 UTF-16，UTF-16 编码数据流中的字节顺序标记 (BOM)，以及 XML 编码声明.从这些部分的信息来看，UTF-16 文档中似乎需要字节顺序标记.但是附录 F 中的汇总图表给出了一个场景，其中 UTF-16 输入没有字节顺序标记，但是这个场景有一个 xml 声明.根据第 4.3.3 节，UTF-16 编码的文档不需要编码声明( ..

发布时间：2021-09-15 19:39:09 xml unicode w3c utf-16 specifications 其他开发

如何在 C++ 中将 UTF-16 代理十进制转换为 UNICODE

我从��等参数中得到了一些字符串数据. 这些是 Unicode 的 UTF-16 代理对，以十进制表示. 如何使用标准库将它们转换为 Unicode 代码点，例如“U+1F62C"? 解决方案您可以轻松手动.从高 unicode 点传递到代理对并返回的算法并不难.UTF16 上的维基百科页面说: U+10000 到 U+10FFFF 从 ..

发布时间：2021-09-15 19:39:06 c++ unicode utf-16 surrogate-pairs C/C++开发

Python UTF-16 输出和 Windows 行结尾的错误?

使用此代码: test.py 导入系统导入编解码器sys.stdout = codecs.getwriter('utf-16')(sys.stdout)打印“test1"打印“test2" 然后我运行它: test.py >测试.txt 在 Windows 2000 上的 Python 2.6 中，我发现换行符被输出为字节序列 \x0D\x0A\x00 这当然是错误的对于 UTF-1 ..

发布时间：2021-09-15 19:39:03 python windows utf-16 Python

如何将用户从控制台的输入读入 Unicode 字符串?

一个 C++ 初学者的问题.这是我目前拥有的: //来自 tchar.h#define _T(x) __T(x)...//从 tchar.h#define __T(x) L ## x...//在 MySampleCode.h 中#ifdef _UNICODE#define tcout wcout#别的#define tcout cout#万一...//在 MySampleCode.cpp 中CA ..

发布时间：2021-09-15 19:39:00 c++ string unicode atl utf-16 C/C++开发

UCS2 与 UTF.UCS2编码不能显示哪些语言?

UCS2 比 UTF 编码更易于在 Visual C++ 中使用.UCS2 编码不支持哪些语言? 解决方案没有任何你可能关心的，或者更重要的是，有字体.UCS2 为您提供基本的多语言平面；您可以在 Unicode 站点上找到指定平面的概述 0 - 基本多语言平面 1 - 补充多语言平面(古代符号、克林贡语等) 2 - Supplementary Ideagraphic Plan ..

发布时间：2021-09-15 19:38:58 visual-c++ unicode utf-16 ucs2 其他开发

致命错误:高代理和低代理代码点不是有效的 Unicode 标量值

有时在使用 57292 之类的值初始化 UnicodeScalar 时会产生以下错误: 致命错误:高代理和低代理代码点不是有效的 Unicode 标量值这是什么错误，为什么会发生，我将来如何防止? 解决方案背景:UTF-16 将 Unicode 字符序列(“代码点")表示为 16 位“代码单元"序列.对于标量值在 16 位以内的字符(即从 U+0000 到 U+FFFF 的字符)， ..

发布时间：2021-09-15 19:38:55 string swift unicode utf-16 utf 移动开发

C# 中 UTF16LE(无 BOM 和 0 字节结尾)的 MD5

我遇到了以下问题；我需要创建一个方法，它生成一个字符串的 MD5 哈希.例如，此字符串是“1234567z-äbc"(是的，带有变音). 这个的实际MD5 Hash是:935fe44e659beb5a3bb7a4564fba0513 我需要的 MD5 哈希是(100% 确定):9e224a41eeefa284df7bb0f26c2913e2 我的文档说，它必须是没有 BOM 和 ..

发布时间：2021-09-15 19:38:52 c# javascript utf-16 C#/.NET

Windows 上代理对的 wchar_t* 大小(BMP 之外的 Unicode 字符)

我在 Windows 8 上遇到了一个有趣的问题.我测试过我可以用 wchar_t* 字符串表示 BMP 之外的 Unicode 字符.以下测试代码给我带来了意想不到的结果: const wchar_t* s1 = L"a";const wchar_t* s2 = L"\U0002008A";//“汉"字int i1 = sizeof(wchar_t);//i1 == 2，Windows 上 w ..

发布时间：2021-09-15 19:38:49 c++ windows unicode utf-16 C/C++开发

我需要将 UTF-16 转换为 ANSI

如何在 .cmd 文件中将 UTF-16 转换为 ANSI? 解决方案你的代码在它的开头有一个 UTF-16 LE 字节顺序标记，这是一种在 DosTips.通过十六进制编辑器将其删除，或将此代码保存为 deobfuscate.bat 并将您的脚本拖到其上: @echo on &setlocal如果 "%~1"=="" 退出/bif/i "%~x1" neq ".bat" if/i " ..

发布时间：2021-09-15 19:38:46 utf-16 ansi 其他开发

utf-16 编码字符串是否需要 [0xff, 0xfe] 前缀?

重写的问题！我正在使用需要对字符串进行“unicode 编码"的供应商设备，其中每个字符以两个字节表示.我的字符串将始终基于 ASCII，所以我认为这是将我的字符串转换为供应商字符串的方法: >>>b1 = 'abc'.encode('utf-16') 但是检查结果，我看到字节数组上有一个前导 [0xff, 0xfe]: >>>[十六进制(b) 用于 b1 中的 b]['0xff ..

发布时间：2021-09-15 19:38:43 python-3.x utf-16 其他开发

为什么我必须为我的 <script> 指定字符集属性?标签?

我有一点奇怪的情况: 主 HTML 页面以 UTF-16 字符集提供(由于此问题的某些要求超出范围) HTML 页面使用标签来加载外部脚本(即它们具有 src 属性) 那些外部脚本是 US-ASCII/UTF-8 Web 服务器正在为内容类型为“application/javascript"的脚本提供服务.没有字符集提示脚本没有字节顺序标记 (BOM) 加载上述页面时，Fi ..

发布时间：2021-09-15 19:38:39 javascript html utf-8 character-encoding utf-16 前端开发

Java UTF-16 字符串总是使用 4 个字节而不是 2 个字节

我有一个简单的测试 @Testpublic void utf16SizeTest() 抛出异常 {最终字符串测试 = "п";//'п' = U+043F 根据unicode表//43F 转二进制 = 0100 0011 1111(长度为 11)//添加'0'所以长度应该是= 16//0000 0100 0011 1111//00000100(2) 00111111(2)//4(10) 63(1 ..

发布时间：2021-09-15 19:38:36 java string unicode character utf-16 Java开发

自动检测字符编码的 findstr 或 grep (UTF-16)

我想这样做: findstr/s/c:some-symbol * 或等价的grep grep -R some-symbol * 但我需要该实用程序来自动检测以 UTF-16(和朋友)编码的文件并适当地搜索它们.我的文件中甚至有字节顺序标记 FFEE，所以我什至没有寻找英勇的自动检测. 有什么建议吗? 我指的是 Windows Vista 和 XP. 解决方案一种解 ..

发布时间：2021-09-15 19:38:33 unicode windows-xp windows-vista utf-16 findstr 其他开发

utf-16相关内容