unicode相关内容

为什么是“控制"?XML 1.0 中的字符非法?

在 XML 1.0 中有多种不能合法编码的字符,例如U+0007 ('bell') 和 U+001B ('escape').大多数有趣的是非空白“控制"字符. 从(例如)这个问题和其他人可以清楚地看出它是问题所在的 XML 规范——但任何人都可以照亮我至于为什么 XML 规范禁止这些字符? 似乎可能需要将它们编码为转义符,例如分别为  和  ,但也许有一 ..
发布时间:2021-12-03 14:20:13 其他开发

Ruby 1.9:我如何正确地大写 &小写多字节字符串?

因此 matz 决定在 ruby​​ 1.9.1 中将 upcase 和 downcase 限制为 /[AZ]/i.> ActiveSupport::Multibyte 长期以来一直通过 String#mb_chars 在 ruby​​ 1.8.x 中进行出色的 i18n 案例抖动. 但是,在 ruby​​ 1.9.1 下尝试时,它似乎不起作用.这是我编写的一个简单的测试脚本,以及我得到的 ..
发布时间:2021-12-03 10:18:06 其他开发

读取文件时如何避免被 UTF-8 BOM 绊倒

我正在使用一个最近添加了 Unicode BOM 标头 (U+FEFF) 的数据提要,而我的 rake 任务现在被它搞砸了. 我可以使用 file.gets[3..-1] 跳过前 3 个字节,但是有没有更优雅的方式来读取 Ruby 中的文件,它可以正确处理这个问题,无论 BOM 是否为存在与否? 解决方案 使用 ruby​​ 1.9.2 你可以使用模式 r:bom|utf-8 te ..
发布时间:2021-12-03 10:00:30 其他开发

使用 Python 在 Pandas 中读取 CSV 文件时出现 UnicodeDecodeError

我正在运行一个正在处理 30,000 个类似文件的程序.他们中的随机数正在停止并产生此错误... 文件“C:\Importer\src\dfman\importer.py",第 26 行,在 import_chr数据 = pd.read_csv(文件路径,名称=字段)文件“C:\Python33\lib\site-packages\pandas\io\parsers.py",第 400 行,在 ..
发布时间:2021-12-03 08:20:55 Python

如何对所有非 ASCII 字符进行 grep?

我有几个非常大的 XML 文件,我正在尝试查找包含非 ASCII 字符的行.我尝试了以下方法: grep -e "[\x{00FF}-\x{FFFF}]" file.xml 但这会返回文件中的每一行,无论该行是否包含指定范围内的字符. 是我语法错误还是我做错了什么?我也试过: egrep "[\x{00FF}-\x{FFFF}]" file.xml (模式周围有单引号和双引号). ..
发布时间:2021-12-03 00:00:04 服务器开发

Javascript RegExp + Word 边界 + unicode 字符

我正在构建搜索,我将使用 javascript 自动完成功能.我来自芬兰(芬兰语),所以我必须处理一些特殊字符,如 ä、ö 和 å 当用户在搜索输入字段中输入文本时,我尝试将文本与数据进行匹配. 这是一个简单的例子,如果用户输入例如“ää",它就不能正常工作.与“äl"相同的事情 var title = "这是一个简单的字符串,带有芬兰语单词 tämä on ääkköstesti ..
发布时间:2021-12-02 23:50:34 前端开发

重音字符(变音符号)的具体 Javascript 正则表达式

我看过堆栈溢出(替换字符..嗯, JavaScript 如何不遵循有关 RegExp 的 Unicode 标准 等)并且还没有真正找到问题的具体答案: JavaScript 如何匹配重音字符(带有变音符号的字符)? 我强制 UI 中的字段匹配以下格式:last_name, first_name (last [comma space] first),我想为以下内容提供支持变音符号,但显然 ..
发布时间:2021-12-02 23:40:47 前端开发

获取字符码值大于十六进制`FFFF`的 Unicode 字符

问题 ChrW charcode 参数是一个 Long 标识一个字符,但不允许大于 65535 的值(十六进制值 &HFFFF) -请参阅 MS 帮助. 例如杂项符号和象形文字可以在Unicode十六进制块1F300-1F5FF中找到.所以我没有找到任何方式来表示建议的 ►1F512 和 1F513 的十六进制值,用于打开或关闭的挂锁符号正是在这个字符代码块中,当然ChrW(&H1F5 ..
发布时间:2021-12-02 22:59:56 其他开发

如何使 Django slugify 与 Unicode 字符串一起正常工作?

如何防止 slugify 过滤器去除非 ASCII 字母数字字符?(我使用的是 Django 1.0.2) cnprog.com 在问题网址中有汉字,所以我查看了他们的代码.他们没有在模板中使用 slugify,而是在 Question 模型中调用这个方法来获取永久链接 def get_absolute_url(self):return '%s%s' % (reverse('questio ..
发布时间:2021-12-02 19:42:50 Python

使用 Objective C/Cocoa 对 unicode 字符进行转义,即 \u1234

我从中获取数据的某些站点返回 UTF-8 字符串,其中转义了 UTF-8 字符,即:\u5404\u500b\u90fd 是否有内置的可可函数可以帮助解决这个问题,或者我是否必须编写自己的解码算法. 解决方案 没有内置函数来做 C 转义. 您可以使用 NSPropertyListSerialization 作弊,因为“旧文本样式"plist 支持通过 \Uxxxx 进行 C 转 ..
发布时间:2021-12-02 18:09:53 移动开发

为什么 Python 不能识别我的 utf-8 编码源文件?

这是一个带有非 ASCII 字符的小 tmp.py: if __name__ == "__main__":s = 'ß'印刷) 运行时出现以下错误: 回溯(最近一次调用最后一次):文件“.\tmp.py",第 3 行,在 中印刷)文件“C:\Python32\lib\encodings\cp866.py",第 19 行,编码返回 codecs.charmap_encode( ..
发布时间:2021-12-02 17:20:28 Python

NameError:全局名称“unicode"未定义 - 在 Python 3 中

我正在尝试使用名为 bidi 的 Python 包.在这个包中的一个模块 (algorithm.py) 中,有一些行给我错误,尽管它是包的一部分. 这里是几行: # utf-8 ?我们需要Unicode如果是实例(unicode_or_str,unicode):文本 = unicode_or_str解码=假别的:文本 = unicode_or_str.decode(编码)解码 = 真 这 ..
发布时间:2021-12-02 17:07:37 Python

如何更正 TypeError: Unicode 对象必须在散列之前编码?

我有这个错误: 回溯(最近一次调用最后一次):文件“python_md5_cracker.py",第 27 行,在 中m.update(行)类型错误:在散列之前必须对 Unicode 对象进行编码 当我尝试在 Python 3.2.2 中执行此代码时: 导入 hashlib, sysm = hashlib.md5()哈希 = ""hash_file = input("has ..
发布时间:2021-12-02 16:44:42 Python

如何在 Ruby 中替换带重音的拉丁字符?

我有一个 ActiveRecord 模型,Foo,它有一个 name 字段.我希望用户能够按名称搜索,但我希望搜索忽略大小写和任何重音.因此,我还存储了一个用于搜索的 canonical_name 字段: class Foovalidates_presence_of :namebefore_validate :set_canonical_name私人的def set_canonical_name ..
发布时间:2021-12-02 12:23:06 其他开发

Ruby on Rails 3 表单中的 _snowman 参数是什么?

在 Ruby on Rails 3(目前使用 Beta 4)中,我看到当使用 form_tag 或 form_for 助手时,有一个名为 _snowman 显示 ☃ (Unicode \x9731) 的值. 所以,这是做什么用的? 解决方案 这是为了支持 Internet Explorer 5 并鼓励它使用 UTF-8 表示其形式. 看到的提交消息此处详细说明如下: 修复 ..
发布时间:2021-12-02 12:18:16 其他开发

如何从 JSON 获取字符串对象而不是 Unicode?

我正在使用 Python 2 从 ASCII 编码 文本文件解析 JSON. 使用 json 加载这些文件时或 simplejson,我所有的字符串值都被转换为 Unicode 对象字符串对象.问题是,我必须将数据与一些只接受字符串对象的库一起使用.我无法更改库,也无法更新它们. 是否可以获取字符串对象而不是 Unicode 对象? 示例 >>> 导入json>>> origi ..
发布时间:2021-12-02 11:15:42 Python

使用 json.dumps 将 utf-8 文本保存为 UTF8,而不是 \u 转义序列

示例代码: >>>导入json>>>json_string = json.dumps("ברי צקלה")>>>打印(json_string)“\u05d1\u05e8\u05d9\u05e6\u05e7\u05dc\u05d4" 问题:它不是人类可读的.我的(聪明的)用户想要验证甚至编辑带有 JSON 转储的文本文件(我宁愿不使用 XML). 有没有办法将对象序列化为 UTF-8 ..
发布时间:2021-12-02 10:56:50 Python

仅接受波斯字符的正则表达式

我正在开发一种表单,其中一个自定义验证器应该只接受波斯语字符.我使用了以下代码: var myregex = new Regex(@"^[\u0600-\u06FF]+$");如果(myregex.IsMatch(mytextBox.Text)){args.IsValid = true;}别的{args.IsValid = false;} 但是,它似乎只能检测阿拉伯字符,因为它没有涵盖所有波斯 ..
发布时间:2021-12-02 08:53:54 C#/.NET

生成 PDF 时无法获取捷克语字符

在生成 PDF 时添加诸如“Č"或“Ć"之类的字符时遇到问题.我主要使用段落将一些静态文本插入到我的 PDF 报告中.这是我使用的一些示例代码: var document = new Document();文档.Open();Paragraph p1 = new Paragraph("测试字母Č,Ć,Š,Ž,Đ", new Font(Font.FontFamily.HELVETICA, 10)) ..
发布时间:2021-12-02 08:44:57 C#/.NET