python - bs爬下div后如何获得最外层标签?

查看:369
本文介绍了python - bs爬下div后如何获得最外层标签?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

问 题

初学python,写了个小爬虫,是对贴吧的爬取,希望做到由已知发言内容得到用户名

用find_all()爬的含信息的div头。class属性是"l_post l_post_bright j_l_post clearfix",这个div的data-field里有用户id和发言的content。但是他中间会有很多很多别的标签,就想问下前辈们有没有什么方法可以简单的就取到最外面的标签。嗯,把中间的统统过滤掉!

解决方案

   r = requests.get("http://tieba.baidu.com/p/2108034524?pn=4")
   soup = BeautifulSoup(r.content, "lxml")
   users = soup.find_all("div", class_="l_post")
   for user in users:
       print(user["data-field"])
       # 其他处理

然后对取出的内容再进行处理

这篇关于python - bs爬下div后如何获得最外层标签?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆