正则表达式 - Python 3.5 如何对中文字符串进行处理?

查看:143
本文介绍了正则表达式 - Python 3.5 如何对中文字符串进行处理?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

问 题

python初学者,写一个简单的爬虫程序,在处理标题的时候遇到的问题
按照网文的写法,好像应该先

txt = "大家好我叫123abc"
str1 = txt.decode('gb2312')
str2 = str1.encode('utf-8')

但是编译结果显示
AttributeError: 'str' object has no attribute 'decode'
查过文档后也没有关于decode的定义

请问大家,在这个版本的Python中,对于中英数字混杂的字符串怎样处理?

解决方案

str 类型只有 encode 方法, bytes 类型只有 decode 方法。
爬虫爬下来的文本假设为 txt
试一试 txt.decode('utf-8') 或者 txt.decode('gb2312')

这篇关于正则表达式 - Python 3.5 如何对中文字符串进行处理?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆