multibyte相关内容

将带有日语字符的CSV文件读入R

我很难在CSV文件中读取R,该文件的一些列是标准英语字符,一些是数字,一些字段是日语字符。以下是数据的外观: category,desc,otherdesc,volume UPC - 31401 Age Itameabura,かどや製油 純白ごま油,OIL_OTHERS_SML_ECO,83.0 UPC - 31401 Age Itameabura,オレインリッチ,OIL_OTHERS_ME ..
发布时间:2022-07-04 19:41:31 其他开发

PHP中的多字节修剪?

显然mb_* family中没有mb_trim,所以我正在尝试为自己实现一个。 我最近在php.net中的评论中发现了此正则表达式: /(^s+)|(s+$)/u 因此,我将通过以下方式实现它: function multibyte_trim($str) { if (!function_exists("mb_trim") || !extension_loaded("m ..
发布时间:2022-06-22 12:16:57 PHP

Ruby 1.9:我怎样才能正确地大写 &小写多字节字符串?

因此 matz 决定在 ruby​​ 1.9.1 中将 upcase 和 downcase 限制为 /[AZ]/i.p> ActiveSupport::Multibyte 长期以来在 ruby​​ 1.8.x 中通过 String#mb_chars 实现了出色的 i18n 大小写. 但是,在 ruby​​ 1.9.1 下尝试时,它似乎不起作用.这是我编写的一个简单的测试脚本,以及我得到的输 ..
发布时间:2022-01-18 13:00:04 其他开发

UTF-8 的多字节安全 wordwrap() 函数

PHP 的 wordwrap() 函数对于多像UTF-8这样的字节串. 评论里有几个mb安全函数的例子,但是有了一些不同的测试数据,它们似乎都有一些问题. 该函数应采用与 wordwrap() 完全相同的参数. 特别要确保它适用于: 如果$cut = true,则剪切中间词,否则不剪切中间词 如果 $break = ' ' ,不要在单词中插入额外的空格也适用于 $bre ..
发布时间:2021-12-28 16:44:39 PHP

UTF-8“变宽编码"是如何实现的工作?

unicode 标准中有足够的代码点,您需要 4 个字节来存储它们.这就是 UTF-32 编码的作用.然而,UTF-8 编码通过使用称为“可变宽度编码"的东西以某种方式将它们压缩到更小的空间中. 事实上,它设法在一个字节中表示 US-ASCII 的前 127 个字符,看起来与真正的 ASCII 完全一样,因此您可以将大量 ascii 文本解释为 UTF-8,而无需对其进行任何处理.巧妙的把戏 ..
发布时间:2021-12-26 13:35:59 其他开发

使用 printf 打印 UTF-8 字符串 - 宽与多字节字符串文字

在这样的语句中,两者都以相同的编码 (UTF-8) 输入到源代码中并且语言环境设置正确,它们之间有什么实际区别吗? printf("ο Δικαιοπολις εν αγρω εστιν\n");printf("%ls", L"ο Δικαιοπολις εν αγρω εστιν\n"); 因此,在输出时是否有任何理由更喜欢一个?我想第二个的性能会差一点,但它比多字节文字有什么优势(或劣势) ..
发布时间:2021-12-26 13:27:53 其他开发

Ruby 1.9:我如何正确地大写 &小写多字节字符串?

因此 matz 决定在 ruby​​ 1.9.1 中将 upcase 和 downcase 限制为 /[AZ]/i.> ActiveSupport::Multibyte 长期以来一直通过 String#mb_chars 在 ruby​​ 1.8.x 中进行出色的 i18n 案例抖动. 但是,在 ruby​​ 1.9.1 下尝试时,它似乎不起作用.这是我编写的一个简单的测试脚本,以及我得到的 ..
发布时间:2021-12-03 10:18:06 其他开发

strtolower() 用于 unicode/多字节字符串

我的页面中有一些非英语/外语文本,但是当我尝试将其设为小写时,它的字符被转换为包含问号的黑色菱形. $a = "Երկիր Ավելացնել";回声 $b = strtolower($a);//返回 我已经在元标记中设置了我的字符集,但这并没有解决它. ..
发布时间:2021-09-15 19:39:56 PHP

使用sed从文件中删除多字节字符

我需要从文件中删除所有多字节字符,我不知道它们是什么,所以我需要覆盖整个范围. 我可以像这样使用 grep 找到它们:grep -P "[\x80-\xFF]" '我的文件' 尝试用 sed 做一个类似的事情,但删除它们. 干杯 解决方案 试试这个: LANG=C sed 's/[\x80-\xFF]//g' 文件名 ..
发布时间:2021-07-17 20:57:57 其他开发

PHP - 替换所有支持的语言的所有非字母数字字符

嗨,我实际上正在尝试从这样的字符串中替换所有非字母数字字符: mb_ereg_replace('/[^a-z0-9\s]+/i','-',$string); 第一个问题是它不会从字符串中替换像 "." 这样的字符. 其次,我想为此方法添加对所有用户语言的多位支持. 我该怎么做? 任何帮助appriciated,非常感谢. 解决方案 尝试以下操作: preg_repl ..
发布时间:2021-07-07 19:34:34 PHP

在调用`mbtowc()`时,gcc如何确定宽字符集?

根据gcc手册,选项 -fwide-exec-charset 指定编译时的宽字符串和字符常量的宽字符集. 但是在运行时通过调用 mbtowc()将多字节字符转换为宽字符时,宽字符集是什么? POSIX标准表示已确定多字节字符的字符集按当前语言环境的LC_CTYPE类别分类,但是对于宽字符集则什么也没说.我现在没有C标准,所以我不知道C标准对此有何评论. 与编译时一样,gcc选项 -fw ..
发布时间:2021-04-21 20:24:04 其他开发

PHP mb_split(),捕获定界符

preg_split 有一个可选的 PREG_SPLIT_DELIM_CAPTURE 标志,该标志还返回返回数组中的所有定界符. mb_split 不会. 有什么方法可以拆分多字节字符串(不仅仅是UTF-8,而是所有类型)并捕获定界符? 我正在尝试制作一个多字节安全的换行分隔符,保留换行符,但希望使用更通用的解决方案. 解决方案感谢用户Casimir et Hippolyte,我 ..
发布时间:2021-04-21 19:24:56 PHP

仅当字符串为搜索时才替换字符串(preg_replace多字节)

我有问题.我只想替换某些与我键入的字符串完全相同的字符串.因此,如果字符串中带有5 Eur,则只能用例如Steam 5 Euro,如果他是一个人,而不是字符串是How are you 5 Eur pls. 使用我的实际代码,这是不可能的...我使用例如: $string = str_replace('Apple Itunes 25 Euro Guthaben Prepaid De', ..
发布时间:2020-07-01 02:27:40 PHP

Java JNI:将多字节字符从Java传递到C

我再次弄乱了java natve接口,并且遇到了另一个有趣的问题.我通过jni将文件路径发送到c,然后执行一些I/O.因此,我遇到的最常见字符是'äåö'.这是一个完全相同问题的程序的简短演示: Java: public class java { private static native void printBytes(String text); static{ S ..
发布时间:2020-07-01 02:27:37 Java开发

Java控制台中的多字节字符显示

我要在泰米尔语中印一些文字.如何在Java控制台上的泰米尔语中将其打印出来.我正在测试一段代码,并且为了调试,我需要查看正在打印的文本. public static void main(String[] args) { String str = "வீடிவீடிவீடிவீடிவீடி"; System.out.println("String is : "+str); ..
发布时间:2020-07-01 02:27:33 Java开发

测试php中给定字符的大写或小写类型的最佳方法是什么?

不管当前的本地语言是什么,检测字符是大写还是小写的理想方法是什么. 还有更直接的功能吗? 假设:将内部字符编码设置为UTF-8&本地浏览器会话为en-US,en; q = 0.5&已经安装了多字节字符串扩展名.不要使用ctype_lower或ctype_upper. 请参见下面应为多字节兼容的测试代码. $encodingtype = 'utf8'; $characterv ..
发布时间:2020-07-01 02:27:29 PHP

检查文件是否包含多字节字符

我在UTF-8中有一些字幕文件.有时,这些文件中有一些零星的多字节字符,这会在某些应用程序中引起问题. 如果某个文件包含任何多字节字符,我如何在linux中检入(并可能找到这些文件). 解决方案 您可以使用文件命令 chalet16$ echo test > a.txt chalet16$ echo testก > b.txt #One of Thai characters ..
发布时间:2020-07-01 02:26:25 服务器开发

重命名不支持多字节字符

如果我写: rename('php109.tmp','test.jpg'); 那么就可以了. 但是如果我将其更改为: rename('php109.tmp','中文.jpg'); 它将报告 “没有这样的文件或目录...". 但是如果可以将多字节字符写入数据库然后可以读出,那么为什么在重命名字符时失败? 解决方案 该示例应该会有所帮助,您应该找到您的语言 ..
发布时间:2020-07-01 02:26:21 PHP