unicode-normalization - IT屋-程序员软件开发技术分享社区

在PHP中根据W3C规范Unicode

在W3C validator中验证我的网站的HTML代码时，收到以下警告： Line 157, Column 220: Text run is not in Unicode Normalization Form C. …i͈̭̋ͥ̂̿̄̋̆ͣv̜̺̋̽͛̉͐̀͌̚e͖̼̱ͣ̓ͫ͆̍̄̍͘-̩̬̰̮̯͇̯͆̌ͨ́͌ṁ̸͖̹͎̱̙̱͟͡i̷̡͌͂͏̘̭̥̯̟n̏͐͌̑̄̃͘͞… 我在PH ..

发布时间：2022-05-18 15:32:34 php unicode normalization web-standards unicode-normalization PHP

将 éàçè... 替换为等效的“eace"；在 GWT

我试过了s=Normalizer.normalize(s, Normalizer.Form.NFD).replaceAll("[^\\p{ASCII}]", "");但似乎 GWT API 没有提供这样的功能. 我也试过: s=s.replace("é",e); 但它也不起作用场景是我试图从点击的小部件文本中生成令牌以进行历史管理解决方案 @okrasz，foldToA ..

发布时间：2021-12-28 22:24:57 gwt unicode normalization utf unicode-normalization 其他开发

R 中的 Unicode 规范化(形式 C):将所有带有重音符号的字符转换为它们的单一 Unicode 字符形式?

在 Unicode 中，带重音的字母可以用两种方式表示:重音字母本身，以及裸字母加重音的组合.例如，é (+U00E9) 和 e´ (+U0065 +U0301) 通常以相同的方式显示. R 呈现以下内容(版本 3.0.2，Mac OS 10.7.5): >“\u00e9"[1] "é">“\u0065\u0301"[1] "é" 当然: >"\u00e9" == "\u0065\u0 ..

发布时间：2021-12-27 15:43:11 r unicode encoding unicode-normalization latin 其他开发

unicodedata.normalize(form, unistr) 如何工作?

在 API 文档中，http://docs.python.org/2/library/unicodedata.html#unicodedata.normalize.它说返回 Unicode 字符串 unistr 的标准形式 form.表单的有效值为‘NFC’、‘NFKC’、‘NFD’和‘NFKD’.` 文档相当模糊，有人可以用一些例子解释valid values吗? 解决方案 ..

发布时间：2021-12-26 13:57:23 python unicode encoding normalization unicode-normalization Python

比较 unicode 字符时，Javascript 字符串比较失败

我想比较 JavaScript 中相同的两个字符串，但相等运算符 == 返回 false.一个字符串包含一个特殊字符(例如丹麦语 å). JavaScript 代码: var filenameFromJS = "Designhåndbog.pdf";var filenameFromServer = "Designhåndbog.pdf";打印(文件名来自JS == 文件名来自服务器)；// ..

发布时间：2021-12-26 13:50:20 javascript string unicode data-transfer unicode-normalization 前端开发

File.listFiles() 使用 JDK 6 破坏 Unicode 名称(Unicode 规范化问题)

在 OS X 和 Linux 上的 Java 6 中列出目录内容时，我正在努力解决一个奇怪的文件名编码问题:File.listFiles() 和相关方法似乎在与系统其他部分不同的编码. 请注意，导致我出现问题的不仅仅是这些文件名的显示.我主要感兴趣的是将文件名与远程文件存储系统进行比较，因此我更关心名称字符串的内容，而不是用于打印输出的字符编码. 这是一个演示程序.它创建一个具有 Un ..

发布时间：2021-12-26 13:48:52 java unicode normalization unicode-normalization file-encodings Java开发

什么是标准化的 UTF-8?

ICU 项目(现在也有一个 PHP 库) 包含帮助规范化 UTF-8 字符串所需的类，以便在搜索时更容易比较值. 但是，我正在尝试弄清楚这对应用程序意味着什么.例如，在哪些情况下我需要“规范等效"而不是“兼容性等效"，或者反之亦然? 解决方案关于 Unicode 规范化你从未想知道的一切规范归一化 Unicode 包括多种对某些字符进行编码的方法，尤其是重音字符.规范 ..

发布时间：2021-12-26 13:47:00 php c unicode unicode-normalization PHP

在 PySpark 中使用 Apache Spark 数据帧删除重音的最佳方法是什么?

我需要从不同数据集中的西班牙语和其他语言的字符中删除重音符号. 我已经根据此 post 删除特殊的重音.问题是该函数很慢，因为它使用了 UDF.我只是想知道我是否可以提高我的函数的性能以在更短的时间内获得结果，因为这对小数据帧有好处，但对大数据帧无效. 提前致谢. 这里的代码，你将能够运行它: # 导入 sql 类型从 pyspark.sql.types 导入 StringTy ..

发布时间：2021-11-14 21:25:01 python apache-spark pyspark apache-spark-sql unicode-normalization Python

在 PySpark 中使用 Apache Spark 数据帧删除重音的最佳方法是什么?

我需要从不同数据集中的西班牙语和其他语言的字符中删除重音符号. 我已经根据此 post 删除特殊的重音.问题是该函数很慢，因为它使用了 UDF.我只是想知道我是否可以提高我的函数的性能以在更短的时间内获得结果，因为这对小数据帧有好处，但对大数据帧无效. 提前致谢. 这里的代码，你将能够运行它: # 导入 sql 类型从 pyspark.sql.types 导入 StringTy ..

发布时间：2021-11-12 05:46:15 python apache-spark pyspark apache-spark-sql unicode-normalization Python

我刚开始尝试在 VBA 中编写代码以使用 WinAPI 函数.WinAPI Normalize() 函数使用什么编码?UTF-16 是我所期望的，但以下不起作用.字符数似乎没有正确计算，然后尝试实际创建规范化字符串只会使 Access 崩溃. 'normFormEnum'不是随机数，而是来自......'https://msdn.microsoft.com/en-us/library/windo ..

发布时间：2021-09-25 19:04:56 vba winapi unicode-normalization 其他开发

这是奇怪的UTF-8编码转换吗?

我正在使用一个似乎的远程应用程序来对编码做一些魔术.该应用程序根据用户输入呈现清晰的响应(我将其称为True和False).我知道两个有效值，它们将呈现"True"，其他所有值均应为"False". (偶然地)我发现有趣的是，提交损坏的值会导致"True". 示例输入: USER10//给出TrueUSER11//给出TrueUSER12//给出FalseUSER ..//给出Fa ..

发布时间：2021-04-21 20:28:09 unicode encoding character-encoding unicode-normalization 其他开发

提交带有Unicode的表单时如何避免浏览器Unicode规范化

当用HTML呈现以下Unicode文本时，事实证明浏览器(Google Chrome)执行某种形式的将数据发布回服务器时的Unicode规范化. (可能使用表格C ). 但是，当使用圣经希伯来语(בְּרִיךְהוּא)文本时，这很容易破坏文本，如此处(第9页). 有什么方法可以避免浏览器的自动文本规范化? 我写了一篇博客文章，更详细地描述了我所面临的问题: 解决方案这似乎 ..

发布时间：2020-11-10 03:11:12 forms unicode normalization unicode-normalization 其他开发

如何仅删除字符串中大写字母的变音符号

我需要删除字符串中大写字母的变音符号. 示例:ÉlectroniqueCaméras=> ElectroniqueCaméras(仅修改了É，Caméras中的é保持不变) 我正在使用以下方法，该方法仅从大写字母中删除变音符号，但是重建的字符串看起来像这样-Electronique Came?ras(é丢失了).如何正确重建字符串? public static String remov ..

发布时间：2020-07-12 18:49:01 java normalization denormalization unicode-normalization Java开发

在PHP中，我该如何处理HFS +和其他地方的HFS +编码文件名的差异?

我正在创建一个非常简单的文件搜索，其中搜索数据库是一个文本文件，每行一个文件名.该数据库是使用PHP构建的，并且通过对文件(也使用PHP)进行grep复制来找到匹配项. 这在Linux中效果很好，但是在Mac上，当使用非ascii字符时.看起来名称在HFS +(MacOSX)上的编码方式与在例如ext3(Linux).这是一个test.php: ..

发布时间：2020-07-12 18:48:57 php macos unicode utf-8 unicode-normalization PHP

Python字符串中特殊字符存储不一致

版本为Python 3.7.我刚刚发现python有时会将字符ñ存储在具有多种表示形式的字符串中，而对于为什么或如何处理它，我完全不知所措. 我不确定显示此问题的最佳方法，所以我将仅显示一些代码输出. 我有两个字符串s1和s2都设置为相等的'Dan Peña' 它们都是字符串类型. 我可以运行代码: print(s1 == s2) # prints false pr ..

发布时间：2020-07-12 18:48:55 python python-3.x string python-3.7 unicode-normalization Python

Unicode NFC规范化可以增加字符串的长度吗?

如果我将Unicode规范化形式C应用于字符串，字符串中的代码点数量会增加吗? 解决方案是的，有些代码点在应用NFC归一化后会扩展为多个代码点.例如，在基本多语言平面中，有70个代码点扩展为2个代码点在应用NFC归一化之后，在字母表示形式块)，可扩展到3个代码点. 对于此所谓的“扩展因子"，一个保证是，任何字符串的扩展长度都不会超过3倍(以还有一个Unicode Consort ..

发布时间：2020-07-12 18:48:50 unicode normalization utf unicode-normalization 其他开发

如何处理将变音符号与UnicodeUtils结合使用?

我正在尝试在IPA字符字符串中插入空格，例如将ɔ̃wɔ̃tɨ转换为ɔ̃ w ɔ̃ t ɨ.使用拆分/连接是我的第一个想法: s = ɔ̃w̃ɔtɨ s.split('').join(' ') #=> ̃ ɔ w ̃ ɔ p t ɨ 正如我通过检查结果发现的那样，带有变音符号的字母实际上被编码为两个字符.经过一番研究，我找到了UnicodeUtils模块，并使用了each_grapheme ..

发布时间：2020-07-12 18:48:47 ruby unicode diacritics unicode-normalization phonetics 其他开发

是否有Unicode编码，其中每个“字符"都包含在其中?只是一个代码点?

尝试改写:您可以将每个组合字符组合映射到一个代码点吗? 我是Unicode的新手，但在我看来，没有编码，规范化或表示形式，在每种情况下，Unicode中每个字符都是一个代码点.这样对吗? Basic Multilingual Planes也是如此吗? 解决方案如果您的意思是一个char ==一个数字(即，其中每个char都由相同数量的字节/字/您所拥有的数字表示):在UCS- ..

发布时间：2020-07-12 18:48:43 unicode normalization utf-16 unicode-normalization surrogate-pairs 其他开发

支持Unicode的单词搜索-问题

此代码可以吗?我真的不知道我应该使用哪种规范化形式(我唯一注意到的是NFD我得到了错误的输出). #!/usr/local/bin/perl use warnings; use 5.014; use utf8; binmode STDOUT, ':encoding(utf-8)'; use Unicode::Normalize; use Unicode::Collate::Locale; ..

发布时间：2020-07-12 18:48:39 perl unicode word collate unicode-normalization 其他开发

Windows中的Unicode规范化

我一直在Windows中使用"unicode字符串"，直到...了解Unicode(例如毕业后).但是，总是让我感到困惑的是Win32API非常松散地提到了"unicode".特别是，MSN提到的"unicode"变体是UTF-16(尽管“宽字符"术语来自于它以前是UCS-2(不是Unicode)这一事实).但是，它几乎没有提到Unicode规范化. MSN上有几页关于 Unicode 和 ..

发布时间：2020-07-12 18:48:37 windows unicode normalization unicode-normalization 其他开发

unicode-normalization相关内容

在PHP中根据W3C规范Unicode

将 éàçè... 替换为等效的“eace"；在 GWT

R 中的 Unicode 规范化(形式 C):将所有带有重音符号的字符转换为它们的单一 Unicode 字符形式?

unicodedata.normalize(form, unistr) 如何工作?

比较 unicode 字符时，Javascript 字符串比较失败

File.listFiles() 使用 JDK 6 破坏 Unicode 名称(Unicode 规范化问题)

什么是标准化的 UTF-8?

在 PySpark 中使用 Apache Spark 数据帧删除重音的最佳方法是什么?

在 PySpark 中使用 Apache Spark 数据帧删除重音的最佳方法是什么?

VBA 字符串规范化(通过 WinAPI)

这是奇怪的UTF-8编码转换吗?

提交带有Unicode的表单时如何避免浏览器Unicode规范化

如何仅删除字符串中大写字母的变音符号

在PHP中，我该如何处理HFS +和其他地方的HFS +编码文件名的差异?

Python字符串中特殊字符存储不一致

Unicode NFC规范化可以增加字符串的长度吗?

如何处理将变音符号与UnicodeUtils结合使用?

是否有Unicode编码，其中每个“字符"都包含在其中?只是一个代码点?

支持Unicode的单词搜索-问题

Windows中的Unicode规范化