mojibake相关内容

解压 mojibake

当您解码错误的字符时,您如何识别原始字符串的可能候选者? Ä×èÈÄÄî▒è¤ô_üiâAâjâüâpâXüj_10òb.png 我知道这个图像文件名应该是一些日文字符.但是由于对 urllib 引用/取消引用、编码和解码 iso8859-1、utf8 的各种猜测,我一直无法取消并获得原始文件名. 腐败是可逆的吗? 解决方案 您可以使用 chardet(使用 pip 安装): ..
发布时间:2022-01-07 21:35:41 Python

字符编码和“问题"

即使在今天,人们仍然经常看到非常频繁的字符编码问题.以最近的职位发布为例: (注意:这是一个例子,不是垃圾邮件... :-) 我最近在网站、流行的 IM 程序和 CNN 的背景图片中看到了那个确切的错误. 我的两部分问题: 是什么导致了这个特殊的、常见的编码问题? 作为开发人员,我应该如何处理用户输入以避免常见的编码问题,例如这个?如果这个问题需要简化以提供一个有意义的答 ..
发布时间:2022-01-07 21:25:15 其他开发

如何替换字符串中的�

我有一个字符串,其中包含一个字符 � 我无法正确替换它. String.replace("�", ""); 不起作用,有人知道如何删除/替换字符串中的 � 吗? 解决方案 这就是 Unicode 替换字符 \uFFFD.(信息) 这样的事情应该可以工作: String strImport = "由于某种原因,我的“双引号"丢失了.";strImport = strI ..
发布时间:2021-12-26 13:42:11 Java开发

通过 PrimeFaces 输入组件检索的 Unicode 输入已损坏

当我还在使用 PrimeFaces v2.2.1 时,我可以使用 PrimeFaces 输入组件(例如 和 )输入 unicode 输入,例如中文:editor>,并在托管 bean 方法中以良好的形式检索输入. 但是,在我升级到 PrimeFaces v3.1.1 后,所有这些字符都变成了 Mojibake 或问号.只有拉丁文输入没问题,是中文、阿拉伯文、希伯来文、西里尔文等字符出现格式 ..
发布时间:2021-12-20 14:47:22 其他开发

如何将 Unicode 字符作为 JSP/Servlet request.getParameter 传递?

经过大量的反复试验,我仍然无法弄清楚问题所在.JSP、servlet 和数据库都设置为接受 UTF-8 编码,但即使我在任何具有任何两字节字符(如破折号)的东西上使用 request.getParameter 时,它们也会被打乱为损坏的字符. 我已经手动提交到数据库,它能够接受这些字符,没问题.如果我从 servlet 中的数据库中提取文本并以我的 jsp 页面的形式打印它,它显示没有问题. ..
发布时间:2021-12-13 14:48:41 其他开发

如何从文件开头删除 ?

我有一个 CSS 文件,当我使用 gedit 打开它时看起来不错,但是当它由 PHP 读取(将所有 CSS 文件合并为一个),此 CSS 具有以下字符: PHP 删除了所有空格,因此代码中间的随机  会弄乱整个内容.正如我提到的,当我在 gedit 中打开文件时,我实际上看不到这些字符,所以我不能很容易地删除它们. 我用谷歌搜索了这个问题,文件编码显然有问题,这是有道理的, ..
发布时间:2021-12-01 11:03:01 PHP

PHP Ansi 转 UTF-8

我正在尝试用 PHP 创建一个脚本,用于将一些文件转换为 UTF-8.我有一个希腊语文件,其中 Notepad++ 表示它是“ANSI"编码.当我将它上传到服务器时,它检测到它的编码为 UTF-8(我认为是 wrinf).然后,当我使用 utf8_encode () 将其内容转换为 UTF-8 并下载新文件时,字符被弄乱了.我试图用 PHP 删除 BOM,结果是一样的.我试图用 PHP 删除 BO ..
发布时间:2021-11-28 17:49:43 PHP

某些阿拉伯文字显示不正确,而其他阿拉伯文字显示正常?

我正在开发一个带有阿拉伯语文本的应用程序..我的手机支持阿拉伯语,所以文本可以正确显示..奇怪的问题是:如果我从 a.txt 文件中复制我想要的阿拉伯语文本并放入将它转换为 EditText,EditText 显示奇​​怪的字符,但如果我手动编写相同的文本(不是复制粘贴),文本将正常显示!! 这是我的意思的图片,第一个 EditText 是我手动编写的文本,第二个是我从 .txt 文件中复制粘贴 ..
发布时间:2021-11-17 01:27:14 移动开发

Facebook JSON 编码错误

我下载了我的 Facebook Messenger 数据(在您的 Facebook 帐户中,转到设置,然后转到您的 Facebook 信息,然后下载您的信息,然后创建一个至少选中消息框的文件)来做一些很酷的统计 但是编码有一个小问题.我不确定,但看起来 Facebook 对这些数据使用了错误的编码.当我用文本编辑器打开它时,我看到如下内容:Rados\u00c5\u0082aw.当我尝试用 ..
发布时间:2021-06-25 19:33:20 Python

使用 Visual Studio 在控制台中输出 utf8(宽流)

如果我在 Windows 10 上用 mingw32 编译这段代码,它就可以工作.并发出正确的结果,如下所示: C:\prj\cd>bin\main.exe1°à€3§4ç5@の,は,でした,象形字; 确实,当我尝试使用 Visual Studio 17 编译它时,相同的代码会发出错误的字符 /out:prova.exe证明文件C:\prj\cd>prova.exe1°Ã â€3§4ç5@ ..
发布时间:2021-06-13 19:32:57 C/C++开发

如何将unicode文本转换为可读的utf8文本?

关于Unicode和utf8,我遇到了一个严重问题, 我将一段阿拉伯语/波斯文字文件保存到记事本中并保存下来,现在我看到的信息是 $$$ p> 我的问题是如何取回我的数据,这对我来说很重要,请提前感谢 字符串加扰=“ “ÈåØæáåãæäÚÏÏãËáËíÑæÑÓããíã䔓; byte [] bytes = Encoding.GetEncoding(“ ..
发布时间:2020-10-01 00:54:10 其他开发

未烘烤的莫吉贝克

当您错误地解码了字符时,如何识别原始字符串的可能候选者? Ä×èÈÄÄÄî▒è ¤ô_üiâAâjâüâpâXüj_10òb.png 我知道这个图像文件名应该是一些日语字符。但是,对于urllib引用/取消引用,编码和解码iso8859-1,utf8的各种猜测,我一直无法取消和获取原始文件名。 腐败是可逆的吗? 解决方案 您可以使用chardet(通过p ..
发布时间:2020-10-01 00:20:33 Python

在UTF-8文本中修复Mojibakes

我有一个文件,其文本为UTF-8葡萄牙语.产生文件的人以某种方式选择了错误的编码,并且文本中充满了 mojibake : IDENTIFICAÌàÌÄO instead of identificação André instead of André 自动工具看不到文件中的任何错误.我尝试使用 Python软件包ftfy 进行修复,但无济于事. 除了手动替换所有不正确的字符外,如何修复此 ..
发布时间:2020-07-13 03:39:29 Python

\\ u00c3 \\ u00a9在哪个世界变成é?

我有一个来自我无法控制的来源的json文件,其编码可能不正确,其中包含以下字符串: d\u00c3\u00a9cor business\u00e2\u20ac\u2122 active accounts the \u00e2\u20ac\u0153Made in the USA\u00e2\u20ac\u009d label 据此,我正在收集他们打算将\u00c3\u00a9转换为 ..
发布时间:2020-07-13 02:56:09 Python

nodejs同步逐行读取大文件?

我有一个大文件(utf8)。我知道 fs.createReadStream 可以创建流来读取大文件,但不能同步。所以我尝试使用 fs.readSync ,但读取的文本像“迈 ”。 var fs = require('fs'); var util = require('util'); var textPath = __dirname +'/people-daily.txt'; v ..
发布时间:2017-11-06 21:27:46 前端开发