unicode-normalization相关内容

R 中的 Unicode 规范化(形式 C):将所有带有重音符号的字符转换为它们的单一 Unicode 字符形式?

在 Unicode 中,带重音的字母可以用两种方式表示:重音字母本身,以及裸字母加重音的组合.例如,é (+U00E9) 和 e´ (+U0065 +U0301) 通常以相同的方式显示. R 呈现以下内容(版本 3.0.2,Mac OS 10.7.5): >“\u00e9"[1] "é">“\u0065\u0301"[1] "é" 当然: >"\u00e9" == "\u0065\u0 ..
发布时间:2021-12-27 15:43:11 其他开发

File.listFiles() 使用 JDK 6 破坏 Unicode 名称(Unicode 规范化问题)

在 OS X 和 Linux 上的 Java 6 中列出目录内容时,我正在努力解决一个奇怪的文件名编码问题:File.listFiles() 和相关方法似乎在与系统其他部分不同的编码. 请注意,导致我出现问题的不仅仅是这些文件名的显示.我主要感兴趣的是将文件名与远程文件存储系统进行比较,因此我更关心名称字符串的内容,而不是用于打印输出的字符编码. 这是一个演示程序.它创建一个具有 Un ..

什么是标准化的 UTF-8?

ICU 项目(现在也有一个 PHP 库) 包含帮助规范化 UTF-8 字符串所需的类,以便在搜索时更容易比较值. 但是,我正在尝试弄清楚这对应用程序意味着什么.例如,在哪些情况下我需要“规范等效"而不是“兼容性等效",或者反之亦然? 解决方案 关于 Unicode 规范化你从未想知道的一切 规范归一化 Unicode 包括多种对某些字符进行编码的方法,尤其是重音字符.规范 ..
发布时间:2021-12-26 13:47:00 PHP

在 PySpark 中使用 Apache Spark 数据帧删除重音的最佳方法是什么?

我需要从不同数据集中的西班牙语和其他语言的字符中删除重音符号. 我已经根据此 post 删除特殊的重音.问题是该函数很慢,因为它使用了 UDF.我只是想知道我是否可以提高我的函数的性能以在更短的时间内获得结果,因为这对小数据帧有好处,但对大数据帧无效. 提前致谢. 这里的代码,你将能够运行它: # 导入 sql 类型从 pyspark.sql.types 导入 StringTy ..

在 PySpark 中使用 Apache Spark 数据帧删除重音的最佳方法是什么?

我需要从不同数据集中的西班牙语和其他语言的字符中删除重音符号. 我已经根据此 post 删除特殊的重音.问题是该函数很慢,因为它使用了 UDF.我只是想知道我是否可以提高我的函数的性能以在更短的时间内获得结果,因为这对小数据帧有好处,但对大数据帧无效. 提前致谢. 这里的代码,你将能够运行它: # 导入 sql 类型从 pyspark.sql.types 导入 StringTy ..

VBA 字符串规范化(通过 WinAPI)

我刚开始尝试在 VBA 中编写代码以使用 WinAPI 函数.WinAPI Normalize() 函数使用什么编码?UTF-16 是我所期望的,但以下不起作用.字符数似乎没有正确计算,然后尝试实际创建规范化字符串只会使 Access 崩溃. 'normFormEnum'不是随机数,而是来自......'https://msdn.microsoft.com/en-us/library/windo ..
发布时间:2021-09-25 19:04:56 其他开发

这是奇怪的UTF-8编码转换吗?

我正在使用一个似乎的远程应用程序来对编码做一些魔术.该应用程序根据用户输入呈现清晰的响应(我将其称为True和False).我知道两个有效值,它们将呈现"True",其他所有值均应为"False". (偶然地)我发现有趣的是,提交损坏的值会导致"True". 示例输入: USER10//给出TrueUSER11//给出TrueUSER12//给出FalseUSER ..//给出Fa ..

提交带有Unicode的表单时如何避免浏览器Unicode规范化

当用HTML呈现以下Unicode文本时,事实证明浏览器(Google Chrome)执行某种形式的将数据发布回服务器时的Unicode规范化. (可能使用表格C ). 但是,当使用圣经希伯来语(בְּרִיךְהוּא)文本时,这很容易破坏文本,如此处(第9页). 有什么方法可以避免浏览器的自动文本规范化? 我写了一篇博客文章,更详细地描述了我所面临的问题: 解决方案 这似乎 ..
发布时间:2020-11-10 03:11:12 其他开发

如何仅删除字符串中大写字母的变音符号

我需要删除字符串中大写字母的变音符号. 示例:ÉlectroniqueCaméras=> ElectroniqueCaméras(仅修改了É,Caméras中的é保持不变) 我正在使用以下方法,该方法仅从大写字母中删除变音符号,但是重建的字符串看起来像这样-Electronique Came?ras(é丢失了).如何正确重建字符串? public static String remov ..

在PHP中,我该如何处理HFS +和其他地方的HFS +编码文件名的差异?

我正在创建一个非常简单的文件搜索,其中搜索数据库是一个文本文件,每行一个文件名.该数据库是使用PHP构建的,并且通过对文件(也使用PHP)进行grep复制来找到匹配项. 这在Linux中效果很好,但是在Mac上,当使用非ascii字符时.看起来名称在HFS +(MacOSX)上的编码方式与在例如ext3(Linux).这是一个test.php: ..
发布时间:2020-07-12 18:48:57 PHP

Python字符串中特殊字符存储不一致

版本为Python 3.7.我刚刚发现python有时会将字符ñ存储在具有多种表示形式的字符串中,而对于为什么或如何处理它,我完全不知所措. 我不确定显示此问题的最佳方法,所以我将仅显示一些代码输出. 我有两个字符串s1和s2都设置为相等的'Dan Peña' 它们都是字符串类型. 我可以运行代码: print(s1 == s2) # prints false pr ..
发布时间:2020-07-12 18:48:55 Python

Unicode NFC规范化可以增加字符串的长度吗?

如果我将Unicode规范化形式C应用于字符串,字符串中的代码点数量会增加吗? 解决方案 是的,有些代码点在应用NFC归一化后会扩展为多个代码点.例如,在基本多语言平面中,有70个代码点扩展为2个代码点在应用NFC归一化之后,在字母表示形式块),可扩展到3个代码点. 对于此所谓的“扩展因子",一个保证是,任何字符串的扩展长度都不会超过3倍(以 还有一个Unicode Consort ..
发布时间:2020-07-12 18:48:50 其他开发

如何处理将变音符号与UnicodeUtils结合使用?

我正在尝试在IPA字符字符串中插入空格,例如将ɔ̃wɔ̃tɨ转换为ɔ̃ w ɔ̃ t ɨ.使用拆分/连接是我的第一个想法: s = ɔ̃w̃ɔtɨ s.split('').join(' ') #=> ̃ ɔ w ̃ ɔ p t ɨ 正如我通过检查结果发现的那样,带有变音符号的字母实际上被编码为两个字符.经过一番研究,我找到了UnicodeUtils模块,并使用了each_grapheme ..
发布时间:2020-07-12 18:48:47 其他开发

是否有Unicode编码,其中每个“字符"都包含在其中?只是一个代码点?

尝试改写:您可以将每个组合字符组合映射到一个代码点吗? 我是Unicode的新手,但在我看来,没有编码,规范化或表示形式,在每种情况下,Unicode中每个字符都是一个代码点.这样对吗? Basic Multilingual Planes也是如此吗? 解决方案 如果您的意思是一个char ==一个数字(即,其中每个char都由相同数量的字节/字/您所拥有的数字表示):在UCS- ..

Windows中的Unicode规范化

我一直在Windows中使用"unicode字符串",直到...了解Unicode(例如 毕业后).但是,总是让我感到困惑的是Win32API非常松散地提到了"unicode".特别是,MSN提到的"unicode"变体是UTF-16(尽管“宽字符"术语来自于它以前是UCS-2(不是Unicode)这一事实).但是,它几乎没有提到Unicode规范化. MSN上有几页关于 Unicode 和 ..
发布时间:2020-07-12 18:48:37 其他开发