python - BeautifulSoup使用find_all方法，如何转换编码？

查看：532 发布时间：2017/9/6 10:38:02

本文介绍了python - BeautifulSoup使用find_all方法，如何转换编码？的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

问题

用BeautifulSoup解析页面，调用find_all打印出来是乱码

代码如下：

    def find(self):
        HtmlData = self.Data()                         #urllib获取的结果(页面编码gb2312)
        HtmlSoup = BeautifulSoup(HtmlData,"lxml")
        FindALL = HtmlSoup.find_all('a')
    #    print HtmlSoup.encode("gb2312")               #能够正常打印
        print str(FindALL).encode("gb2312")            #出现乱码

抓取的页面编码是gb2312,打印的时候使用encode能够正常输出中文字符，但是使用find_all的时候打印出来是乱码
如下：

    et="_blank">\u4e2d\u534e\u6c11\u4fd7\u793c\u4eea</a>, <a href="Doc/1603/2520447.
    htm" target="_blank">\u6e05\u660e\u8282\u626b\u5893\uff0c\u90fd\u6709\u90a3\u4e9

查了发现bs默认编码是utf-8,所以会出现这样的问题，由于本人菜鸡一枚，查了好多都没弄懂。
网上大牛都说python2编码水很深，现在碰到这个问题真心头疼。请教大牛有什么好的办法对编码进行转换？或者让它可以正常输出中文字符？

解决方案

你这里FindALL是一个list,要输应该循环输出

for _ in FindALL:
    print _.encode('utf-8')

或者
print json.dumps(FindALL, ensure_ascii=False)

这篇关于python - BeautifulSoup使用find_all方法，如何转换编码？的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

python - BeautifulSoup使用find_all方法，如何转换编码？

问题描述

用BeautifulSoup解析页面，调用find_all打印出来是乱码

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

python - BeautifulSoup使用find_all方法，如何转换编码？

问题描述

用BeautifulSoup解析页面，调用find_all打印出来是乱码

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭