将包含COMBINING DIAERESIS的文本转换为utf-8 [英] Converting text containing COMBINING DIAERESIS to utf-8

查看:57
本文介绍了将包含COMBINING DIAERESIS的文本转换为utf-8的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我们有一些包含德语变音符号的文字,例如'a'+组合诊断 ($ cc $ 88).

We hav some text containing german umlauts represented using e.g. 'a' + COMBINING DIAERESIS ($cc $88).

有人知道如何将此类文本正确转换为utf8吗?

Any idea how to convert such text properly to utf8?

推荐答案

首先,如果它还不是unicode,则对其进行解码.其次, unicodedata.normalize() .第三,编码.

First, if it's not already a unicode then decode it. Second, unicodedata.normalize(). Third, encode.

这篇关于将包含COMBINING DIAERESIS的文本转换为utf-8的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆