将包含COMBINING DIAERESIS的文本转换为utf-8 [英] Converting text containing COMBINING DIAERESIS to utf-8
本文介绍了将包含COMBINING DIAERESIS的文本转换为utf-8的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我们有一些包含德语变音符号的文字,例如'a'+组合诊断 ($ cc $ 88).
We hav some text containing german umlauts represented using e.g. 'a' + COMBINING DIAERESIS ($cc $88).
有人知道如何将此类文本正确转换为utf8吗?
Any idea how to convert such text properly to utf8?
推荐答案
首先,如果它还不是unicode
,则对其进行解码.其次, unicodedata.normalize()
.第三,编码.
First, if it's not already a unicode
then decode it. Second, unicodedata.normalize()
. Third, encode.
这篇关于将包含COMBINING DIAERESIS的文本转换为utf-8的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文