网页爬虫 - python:爬取带有下拉框日期的数据？

查看：881 发布时间：2017/9/6 11:55:13 网页爬虫 python

本文介绍了网页爬虫 - python:爬取带有下拉框日期的数据？的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

问题

需要用到这方面的数据，单独一页一页的复制了一段时间的数据，发现很是耗时，想从深圳市环保局下载空气质量历史数据。选择日期后，页面出现一个相应的数据表格，每天有24个时间点的。需要将每一天每一个小时的数据都爬下来。页面如下：
网址：http://www.szhec.gov.cn/pages/szepb/kqzl...

麻烦大家

解决方案

使用requests.post请求

上图的URL

hash值在上图的位置。

该图是response

#coding=utf-8
import requests
from bs4 import BeautifulSoup

get_url="http://www.szhec.gov.cn/pages/szepb/kqzl/TGzfwHjKqzlzs.jsp?FLAG=FIRSTFW"#获取hash值
post_url="http://www.szhec.gov.cn/pages/szepb/kqzl/TGzfwHjKqzlzs.jsp" #获取空气质量时报
html=requests.get(get_url)
#使用beautiful解析网页，获取hash值
html_soup=BeautifulSoup(html.text,"html.parser")
hash=html_soup.select("input[name=hash]")
hash=hash[0].get('value')
#构造data
data={

'hash':hash,
'FROM_SELF':'true',
'q_JCRQ':'2016-04-01',
'q_SDATE':'00',
'q_JCDW':'',
'q_JCDW_text':'',

}
#至此已经正确获取了控制质量时报的信息
tqHtml=requests.post(post_url,data=data)
print tqHtml.text

这篇关于网页爬虫 - python:爬取带有下拉框日期的数据？的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

网页爬虫 - python:爬取带有下拉框日期的数据？

问题描述

相关文章

Python最新文章

热门教程

热门工具

登录关闭

网页爬虫 - python:爬取带有下拉框日期的数据？

问题描述

相关文章

Python最新文章

热门教程

热门工具

登录 关闭

登录关闭