正则表达式 - Python 3.5 如何对中文字符串进行处理?
本文介绍了正则表达式 - Python 3.5 如何对中文字符串进行处理?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
问 题
python初学者,写一个简单的爬虫程序,在处理标题的时候遇到的问题
按照网文的写法,好像应该先
txt = "大家好我叫123abc"
str1 = txt.decode('gb2312')
str2 = str1.encode('utf-8')
但是编译结果显示
AttributeError: 'str' object has no attribute 'decode'
查过文档后也没有关于decode的定义
请问大家,在这个版本的Python中,对于中英数字混杂的字符串怎样处理?
解决方案
str
类型只有 encode
方法, bytes
类型只有 decode
方法。
爬虫爬下来的文本假设为 txt
试一试 txt.decode('utf-8')
或者 txt.decode('gb2312')
这篇关于正则表达式 - Python 3.5 如何对中文字符串进行处理?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文