python2.7 - 利用爬虫爬取链家二手房所在小区数据时遇到的问题
本文介绍了python2.7 - 利用爬虫爬取链家二手房所在小区数据时遇到的问题的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
问 题
原网页及使用chrome检查结果如图:
我的目的是提取该二手房所在的小区信息,包括小区均价,建筑年代,建筑类型,楼栋总数,户型总数,源代码为:
>>>from lxml import etree
>>>import requests
>>>url = 'http://bj.lianjia.com/chengjiao/101101498110.html'
>>>r = requests.get(url)
>>>xiaoqu_avg_price = tree.xpath('//*[@id="resblockCardContainer"]/div/div/div[2]/div/div[1]/span/text()')
>>>xiaoqu_avg_price
[]
返回结果为空。进一步查看html源代码发现此处为:
请问我该如何获取我想要的信息?源代码中的resblockCard是什么?谢谢
解决方案
不用看源码,里边很多都是用的模版函数,resblockCard是个入参,其实只要看检查元素里面的dom结构就可以了,利用BeautifulSoup,用获取dom节点数据的方式很容易爬链家的数据的。
这篇关于python2.7 - 利用爬虫爬取链家二手房所在小区数据时遇到的问题的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文