coding - [Python] python2.7总算遇到中文编码坑了

查看:163
本文介绍了coding - [Python] python2.7总算遇到中文编码坑了的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

问 题

我从外部API中获得了一个字符串:

 "\u4ece\u8d77\u70b9\u5411\u6b63\u5357\u65b9\u5411\u51fa\u53d1,\u884c\u9a76170\u7c73,\u76f4\u884c\u8fdb\u5165\u4e2d\u5173\u6751\u4e1c\u8def"

被传给了变量a,以utf8字节串,所以:

a    
'\\u4ece\\u8d77\\u70b9\\u5411\\u6b63\\u5357\\u65b9\\u5411\\u51fa\\u53d1,\\u884c\\u9a76170\\u7c73,\\u76f4\\u884c\\u8fdb\\u5165\\u4e2d\\u5173\\u6751\\u4e1c\\u8def'

print a
\u4ece\u8d77\u70b9\u5411\u6b63\u5357\u65b9\u5411\u51fa\u53d1,\u884c\u9a76170\u7c73,\u76f4\u884c\u8fdb\u5165\u4e2d\u5173\u6751\u4e1c\u8def

这就是已经成了这样的现实状态。

我要把a变成unicode字符要怎么做?

# 把a变成:
u'\u4ece\u8d77\u70b9\u5411\u6b63\u5357\u65b9\u5411\u51fa\u53d1,\u884c\u9a76170\u7c73,\u76f4\u884c\u8fdb\u5165\u4e2d\u5173\u6751\u4e1c\u8def'

解决方案

出现这个问题的主要原因是python吧Unicode编码当成了普
通的字符串,因此把原来的斜杠又加了一个斜杠进行转义
个人认为比较简单的解决方法是用 decode('unicode-escape')

str = "\u4ece\u8d77\u70b9\u5411\u6b63\u5357\u65b9\u5411\u51fa\u53d1"
uni_str = str.decode('unicode-escape')
print uni_str

简单粗暴

这篇关于coding - [Python] python2.7总算遇到中文编码坑了的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆