character-properties相关内容

如何判断一个字符是否是汉字

如何使用ruby判断一个字符是否为汉字? 解决方案 一篇关于 Ruby 编码的有趣文章:http://blog.grayproductions.net/articles/bytes_and_characters_in_ruby_18(这是一个系列的一部分 - 也请查看文章开头的目录) 我以前没有用过汉字,但这似乎是unicode支持的列表:http://en.wikipedia.or ..
发布时间:2021-12-27 15:35:37 其他开发

什么是 {L} Unicode 类别?

我遇到了一些包含 [^\\p{L}] 的正则表达式.我知道这是使用某种形式的 Unicode 类别,但是当我检查 文档,我只找到以下“L"类: Lu 大写字母 UPPERCASE_LETTERLl 小写字母 LOWERCASE_LETTERLt Titlecase 字母 TITLECASE_LETTERLm 修饰字母 MODIFIER_LETTERLo 其他字母 OTHER_LETTER 在这 ..
发布时间:2021-12-26 13:56:33 Java开发

在 PHP 5.2 中修剪 unicode 空格

如何修剪 string(6) " page",其中第一个空格是 0xc2a0 不间断空格? 我试过 trim() 和 preg_match('/^\s*(.*)\s*$/u', $key, $m);. 另一个问题:我怎样才能可靠地复制这些字符?它们似乎被转换为“正常"空间,这使得调试变得困难. 解决方案 preg_replace('/^[\pZ\pC]+|[\pZ\pC]+$/ ..
发布时间:2021-12-26 13:42:58 PHP

如何在 JavaScript 中使用支持 Unicode 的正则表达式?

应该有一些类似于 \w 的东西可以匹配字母或标记类别中的任何代码点(不仅仅是 ASCII 的),并且希望有像 [[P*]] 这样的过滤器标点符号等 解决方案 ES 6 的情况 ECMAScript 语言规范第 6 版(通常也称为 ES2015)包括可识别 Unicode 的正则表达式.必须使用正则表达式上的 u 修饰符启用支持.请参阅 ES6 中的 Unicode 感知正则表达式 休 ..
发布时间:2021-12-26 13:19:58 前端开发

如何在 JavaScript 中使用可识别 Unicode 的正则表达式?

应该有一些类似于 \w 的东西可以匹配字母或标记类别中的任何代码点(不仅仅是 ASCII 的),并且希望有像 [[P*]] 这样的过滤器标点符号等 解决方案 ES 6 的情况 ECMAScript 语言规范第 6 版(通常也称为 ES2015)包括可识别 Unicode 的正则表达式.必须使用正则表达式上的 u 修饰符启用支持.请参阅 ES6 中的 Unicode 感知正则表达式 休 ..
发布时间:2021-11-30 22:28:57 前端开发

Java正则表达式中\w和\b的Unicode等价物?

许多现代正则表达式实现将 \w 字符类速记解释为“任何字母、数字或连接标点符号"(通常:下划线).这样,像 \w+ 这样的正则表达式匹配 hello、élève、GOÄ_432 或 gefräßig. 不幸的是,Java 没有.在 Java 中,\w 仅限于 [A-Za-z0-9_].这使得匹配上面提到的词变得困难,还有其他问题. \b 单词分隔符似乎也在不该匹配的地方匹配. J ..
发布时间:2021-11-25 12:29:02 Java开发

正则表达式匹配不同 Unicode 脚本之间的边界

正则表达式引擎有一个“零宽度"匹配的概念,其中一些对于查找单词的边缘很有用: \b - 存在于大多数引擎中以匹配单词和非单词字符之间的任何边界 \ - 存在于 Vim 中,只匹配单词开头和单词结尾的边界, 某些正则表达式引擎中的一个新概念是 Unicode 类.其中一个类是 script,它可以区分拉丁文、希腊文、西里尔文等.这些例子都是等价的,可以匹配希腊文字系统的任何 ..

正则表达式和 Unicode

我有一个脚本可以解析电视剧集的文件名(例如 show.name.s01e02.avi),获取剧集名称(来自 www.thetvdb.com API)并自动将它们重命名为更好的名称(Show Name- [01x02].avi) 该脚本运行良好,直到您尝试在具有 Unicode 显示名称的文件上使用它(我从未真正考虑过这一点,因为我拥有的所有文件都是英文文件,因此大部分几乎都属于 [a-zA- ..
发布时间:2021-07-06 19:14:13 Python

正则表达式匹配所有 unicode 引号

是否有一个简单的正则表达式来匹配所有 unicode 引号?还是必须像这样手动编码: quotes = ur"[\"'\u2018\u2019\u201c\u201d]" 感谢您的阅读. 布莱恩 解决方案 Python 不支持 Unicode 属性,因此您不能使用 Pi 和 Pf 属性,所以我想你的解决方案是最好的. 您可能还想考虑令人遗憾地使用的“假引号" - 重音符(´ ..
发布时间:2021-06-30 19:41:43 其他开发

匹配任何 Unicode 字母?

在 .net 中你可以使用 \p{L} 来匹配任何字母,我如何在 Python 中做同样的事情?即,我想匹配任何大写、小写和重音字母. 解决方案 Python 的 re 模块尚不支持 Unicode 属性.但是您可以使用 re.UNICODE 标志编译您的正则表达式,然后字符类速记 \w 也将匹配 Unicode 字母. 由于 \w 也将匹配数字,因此您需要从字符类中减去这些数字以及 ..
发布时间:2021-06-25 20:18:57 Python

Python 和带有 Unicode 的正则表达式

我需要从字符串 'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ' 中删除一些 Unicode 符号 我知道他们肯定存在在这里.我试过了: re.sub('([\u064B-\u0652\u06D4\u0670\u0674\u06D5-\u06ED]+)', '', 'بِسْمِ اللَّهِ الََِِٰحَِِ 但它不起作用.字符串保持不变.我做错 ..
发布时间:2021-06-25 19:11:30 Python

Python正则表达式匹配Unicode属性

Perl 和其他一些当前的正则表达式引擎在正则表达式中支持 Unicode 属性,例如类别.例如.在 Perl 中,您可以使用 \p{Ll} 匹配任意小写字母,或使用 p{Zs} 匹配任何空格分隔符.我在 Python 的 2.x 和 3.x 行中都没有看到对此的支持(对此表示遗憾).有人知道获得类似效果的好策略吗?欢迎使用本土解决方案. 解决方案 你试过 Ponyguruma,与 Oni ..
发布时间:2021-06-25 19:10:27 Python

如何获取具有给定属性的所有 Unicode 字符的列表?

不循环遍历整个 Unicode 字符范围,如何获取具有给定属性的字符列表?特别是我想要一个包含所有数字字符的列表(即那些匹配 /\d/ 的字符).我看过Unicode::UCD,它是对于确定给定字符的属性很有用,但似乎没有办法从中获取具有属性的列表字符. 解决方案 每个类的 Unicode 字符列表是在编译 Perl 时根据 Unicode 规范生成的,通常存储在/usr/lib/perl ..
发布时间:2021-06-15 20:48:51 其他开发

如何在Perl中仅匹配Unicode字符串中的完全组成的字符?

我正在寻找一种仅匹配Unicode字符串中完全组成的字符的方法. [:print:] 是否依赖于包含此字符类的任何正则表达式实现中的语言环境?例如,它是否匹配日语字符“あ",因为它不是控制字符,还是 [:print:] 始终是ASCII码0x20到0x7E? 是否有任何字符类(包括Perl RE)可用于匹配控制字符以外的任何其他字符?如果 [:print:] 仅包含ASCII范围内的字 ..
发布时间:2021-05-30 19:52:05 其他开发