scrapy - Python如何将Unicode转换为HTML

查看:203
本文介绍了scrapy - Python如何将Unicode转换为HTML的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

问 题

现在我爬虫得到的数据格式为Unicode的html片段,现在想把它转换为html格式的内容,然后容易提取,应该如何做?
比如获取的片段为以下:

<div class="item"><div class="blk">
<a target="_blank" href="/topic/19564209">
<img src="https://pic3.zhimg.com/d3f7f95975ae3ff5cfeedad9a4febe56_xs.jpg" alt="游戏界面设计">
<strong>游戏  界面设计</strong>
</a>
<p></p>

<a id="t::-4657" href="javascript:;" class="follow meta-item zg-follow"><i class="z-icon-follow"></i>关注</a>

</div></div>

格式为unicode
如何将它转为html格式,然后进行提取?

解决方案

你可能弄混了一些概念……(。・`ω´・)

  • HTML 全称How To Make Love,哦……不是,是HyperText Markup Language(超级文本标记语言)

  • Unicode 是一种字符串编码,字符串还有GBK,GB2312等

两者不是同一种东西,不能互相转换。就好像我能说,能把python转换成unicode吗?显然不能这么说。你只能说是把python代码的默认编码转换成unicode。

如果你是需要python字符串的转换成unicode,在py2中提供了Unicode这个类,而py3中,字符串默认编码就是unicode,不需要转换。

但是你题目描述的是转换成HTML格式,那么现在你贴出来的这段,就是HTML了……ヾ(o◕∀◕)ノ

这篇关于scrapy - Python如何将Unicode转换为HTML的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆