python - html的空格和&nbsp怎么去除?

查看:3027
本文介绍了python - html的空格和&nbsp怎么去除?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

问 题

小白一个,在学爬虫。想爬51job的职业信息。但这个公司性质:民营企业和公司规模:50-150人好难爬。用xpath、正则、还有bs4都爬不下来。因为有空格在哪里,网上查了一下&nbsp也是一种空格(可能还有什么方法我没学到吧....)

我只有一个思路,把空格去了,然后就可以拿到文字了。可是我用了spilt()后,就得到了一个贼多内容的list。这个确实可以用list的快速匹配拿到文字。但我要爬100页,所以这个文字的位置都不同。所以我放弃了。求大神教教我。

html的片段:

 <p class="msg ltype">
                民营公司                            &nbsp;&nbsp;|&nbsp;&nbsp;50-150人                                        &nbsp;&nbsp;|&nbsp;&nbsp;电子技术/半导体/集成电路                        </p>

spilt()后获得的list:
[...'<p', 'class="msg', 'ltype">', '民营公司', '  |  50-150人', '  |  电子技术/半导体/集成电路',...]

list前后还有很多,用...代替吧

解决方案

空格可以用replace(' ','')替换掉。

关于html转义符,可以看下面的回答
一代键客在问题pythoh3 下 '<abc>' 遇到这样的html转义符如何自动转义呢?的回答

这篇关于python - html的空格和&amp;nbsp怎么去除?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆