网页爬虫相关内容

python - 爬虫爬https站点怎么处理的?

问 题 一段模拟登入知乎的问题 PS:这里不讨论验证码问题,我的账号登入没有提示验证码 代码信息: # /usr/bin/python #coding:utf-8 __author__ = 'eyu Fanne' import requests,time from bs4 import BeautifulSoup begintime = time.time() hea ..
发布时间:2017-09-06 12:30:05 Python

网页爬虫 - python访问次数过于频繁被域名限制访问

问 题 今天学习Python爬虫的时候,对于某个的域名访问次数有点多,到最后导致整个公司ping这个域名都出现超时(一个科技资讯网站,我也是非恶意)。想了解是否我的访问被视为了DDOS攻击而被这个网站限制访问了?能否稍微介绍一下Python爬虫如何避免被视为DDOS攻击? 解决方案 一般这种情况时,我会先到 VPS 上 ping 一下目标域名,看看是不是他家网站挂了…… 如 ..
发布时间:2017-09-06 12:28:10 Python

python - 淘宝模拟登陆抓取失败

问 题 淘宝模拟登陆抓取失败 # __author__ = '' # -*- coding: utf-8 -*- import requests import re s = requests.session() login_data = {'email': 'xxx', 'password': 'xxx', } headers = {'User-Agent':'Mozilla/5.0 ..
发布时间:2017-09-06 11:58:47 Python

网页爬虫 - python:爬取带有下拉框日期的数据?

问 题 需要用到这方面的数据,单独一页一页的复制了一段时间的数据,发现很是耗时,想从深圳市环保局下载空气质量历史数据。选择日期后,页面出现一个相应的数据表格,每天有24个时间点的。需要将每一天每一个小时的数据都爬下来。页面如下: 网址:http://www.szhec.gov.cn/pages/szepb/kqzl... 麻烦大家 解决方案 使用requests.post ..
发布时间:2017-09-06 11:55:13 Python

php - 爬虫的参数问题

现在再做一个爬虫,但是有一个问题,通过浏览器的开发工具找到了请求,但是模拟传入POST总是不对,这是这个请求的参数 主要是想请教一下query string parameters和formdata,这两个参数有什么区别,之前做的爬虫参数都在formdata里,直接按照格式提交参数就成功了,也就没有太在意,但是今天这个页面的爬虫时总是不成功,不是很明白为什么,请有经验的大神指点一二 ..
发布时间:2017-09-06 11:16:33 PHP

网页爬虫 - linux执行php进程的问题

问 题 用phpfetch框架写了个php的爬虫,他这个框架的用法是执行php filename.php命令(因为我放在了阿里云上,所以用的putty),但是这样的话,我的电脑就不能关putty(电脑也不能关机),否则的话爬虫就会停止执行。 我想问怎么才能我输上执行php进程的命令以后,我就可以关掉putty,然后爬虫爬完一遍自己结束就好了。 解决方案 nohup php fi ..
发布时间:2017-09-06 10:56:08 PHP

网页爬虫 - python处理中文

问 题 最近在学习python爬虫,用的scrapy,基本流程都通顺了,但是发现解析页面中文的时候比较头大。 比如抽取到的内容可能含有 《 【 等字符,这个时候怎么处理? 另外,xpath搜索的时候也有可能需要通过中文匹配,怎么破? 解决方案 可以考虑采用正则匹配。 参考这篇文章:http://blog.csdn.net/gatieme/article/detail ..
发布时间:2017-09-06 10:52:34 Python

网页爬虫 - Python的爬虫的问题?

问 题 最近自己从很多途径了解到Python爬虫这个概念。 但是自己还没有来得及查阅资料去深入的了解。 所以我就想问一下: 1.Python爬虫具体应用来做什么? 2.Python爬虫具体应该怎么使用? 3.Python的原理是什么? 解决方案 python爬虫用来“抄”网站的资源,就是把一个网站及该网站上的超链接都下载下来 怎么使用。。。看你怎么编了啊。。一般是设置 ..
发布时间:2017-09-06 10:51:55 Python

网页爬虫 - 淘宝python爬虫

问 题 在爬天猫数据的时候出现Redirect Limits的报错,猜测是302一直跳转的问题? 然后试着模拟了cookie,发现有三个值是必须要有的 cookie2=; t=; _tb_token_= 但是苦于这三个值不知道如何获取,所以部署到线上就出错了,有高手知道如何解决吗?谢谢 解决方案 先拉一下天描的主页把cookie存下来,再去访问具体的页面 ..
发布时间:2017-09-06 10:36:47 Python

网页爬虫 - python 爬虫:验证码一直错误

问 题 我用这样的程序去爬类似的有验证码的网站,都能取到正确的数据。只有这个网站,很奇怪啊!一直验证码错误,我只能用代理IP去爬,程序运行两三次,就会IP封了。求解,之前一直以为是取验证码图片时,验证码刷新了,所以不对。所以我直接取的验证码,然后再去页面get数据。其他网站用这个方法都能行,只有这个一直错误! !!!!!!补充:我在fiddler里面看到的过程是,首先手动输入验证码点击 ..
发布时间:2017-09-06 10:33:19 Python

网页爬虫 - python爬虫案例

问 题 请问大家能不能给我一点提点,我想要知道有没有 简单 一点的 爬虫 案例可以让我摸索学习 目前已知的爬虫工具有: Beautiful Soup Scrapy cola pyspider PyQuery grab 这个问题已被关闭,原因:无法获得确切结果的问题 解决方案 你如果真的沒有概念,以下有一些資訊給你參考,不過重點還是你 ..
发布时间:2017-09-06 10:27:26 Python