网页爬虫相关内容
整个代码在本地没有问题,当上传到SAE后就出现错误。 然后我又把lxml库上传到了根目录下的site-packages中,结果仍然如此。 我个人猜测是BeautifulSoup在使用这个解析器并不是简单的导入lxml模块
..
问 题 之前使用F12进行追踪查看知乎登入信息,还能看到一些login的内容,现在咋都看不到信息了。 解决方案 f12,然后把密码输错的,应该就可以了
..
问 题 一段模拟登入知乎的问题 PS:这里不讨论验证码问题,我的账号登入没有提示验证码 代码信息: # /usr/bin/python #coding:utf-8 __author__ = 'eyu Fanne' import requests,time from bs4 import BeautifulSoup begintime = time.time() hea
..
问 题 今天学习Python爬虫的时候,对于某个的域名访问次数有点多,到最后导致整个公司ping这个域名都出现超时(一个科技资讯网站,我也是非恶意)。想了解是否我的访问被视为了DDOS攻击而被这个网站限制访问了?能否稍微介绍一下Python爬虫如何避免被视为DDOS攻击? 解决方案 一般这种情况时,我会先到 VPS 上 ping 一下目标域名,看看是不是他家网站挂了…… 如
..
问 题 我知道你们爬过~~求教~ 我爬了不作为商业目的,只是作为分享,并注明是谁写的?会有问题么? 解决方案 不用爬。。如果你是练手做爬虫无所谓 如果你单方面用数据干点什么。。sf是提供feed的啊 xml解析不比html好多了 https://segmentfault.com/feeds
..
问 题 淘宝模拟登陆抓取失败 # __author__ = '' # -*- coding: utf-8 -*- import requests import re s = requests.session() login_data = {'email': 'xxx', 'password': 'xxx', } headers = {'User-Agent':'Mozilla/5.0
..
问 题 禁止自己的网站被爬虫爬去?有什么方法啊 解决方案 加一个robots.txt文件,内容: User-agent: * Disallow: /
..
问 题 需要用到这方面的数据,单独一页一页的复制了一段时间的数据,发现很是耗时,想从深圳市环保局下载空气质量历史数据。选择日期后,页面出现一个相应的数据表格,每天有24个时间点的。需要将每一天每一个小时的数据都爬下来。页面如下: 网址:http://www.szhec.gov.cn/pages/szepb/kqzl... 麻烦大家 解决方案 使用requests.post
..
问 题 python初学者,写一个简单的爬虫程序,在处理标题的时候遇到的问题 按照网文的写法,好像应该先 txt = "大家好我叫123abc" str1 = txt.decode('gb2312') str2 = str1.encode('utf-8') 但是编译结果显示 AttributeError: 'str' object has no attribute 'decod
..
现在再做一个爬虫,但是有一个问题,通过浏览器的开发工具找到了请求,但是模拟传入POST总是不对,这是这个请求的参数 主要是想请教一下query string parameters和formdata,这两个参数有什么区别,之前做的爬虫参数都在formdata里,直接按照格式提交参数就成功了,也就没有太在意,但是今天这个页面的爬虫时总是不成功,不是很明白为什么,请有经验的大神指点一二
..
问 题 hi,各位好,我在爬大众点评的这个网页http://www.dianping.com/search/keyword/2/75_%E6%96%B0%E4%B8%9C%E6%96%B9,用的request包获取网页源码,header主要添加了user-agent和cookie,但为什么总是返回错误?求助,谢谢各位了! PS:用curl可以返回正常的源码,没有被封IP import
..
问 题 用phpfetch框架写了个php的爬虫,他这个框架的用法是执行php filename.php命令(因为我放在了阿里云上,所以用的putty),但是这样的话,我的电脑就不能关putty(电脑也不能关机),否则的话爬虫就会停止执行。 我想问怎么才能我输上执行php进程的命令以后,我就可以关掉putty,然后爬虫爬完一遍自己结束就好了。 解决方案 nohup php fi
..
问 题 最近在学习python爬虫,用的scrapy,基本流程都通顺了,但是发现解析页面中文的时候比较头大。 比如抽取到的内容可能含有 《 【 等字符,这个时候怎么处理? 另外,xpath搜索的时候也有可能需要通过中文匹配,怎么破? 解决方案 可以考虑采用正则匹配。 参考这篇文章:http://blog.csdn.net/gatieme/article/detail
..
问 题 最近自己从很多途径了解到Python爬虫这个概念。 但是自己还没有来得及查阅资料去深入的了解。 所以我就想问一下: 1.Python爬虫具体应用来做什么? 2.Python爬虫具体应该怎么使用? 3.Python的原理是什么? 解决方案 python爬虫用来“抄”网站的资源,就是把一个网站及该网站上的超链接都下载下来 怎么使用。。。看你怎么编了啊。。一般是设置
..
问 题 在爬天猫数据的时候出现Redirect Limits的报错,猜测是302一直跳转的问题? 然后试着模拟了cookie,发现有三个值是必须要有的 cookie2=; t=; _tb_token_= 但是苦于这三个值不知道如何获取,所以部署到线上就出错了,有高手知道如何解决吗?谢谢 解决方案 先拉一下天描的主页把cookie存下来,再去访问具体的页面
..
问 题 我用这样的程序去爬类似的有验证码的网站,都能取到正确的数据。只有这个网站,很奇怪啊!一直验证码错误,我只能用代理IP去爬,程序运行两三次,就会IP封了。求解,之前一直以为是取验证码图片时,验证码刷新了,所以不对。所以我直接取的验证码,然后再去页面get数据。其他网站用这个方法都能行,只有这个一直错误! !!!!!!补充:我在fiddler里面看到的过程是,首先手动输入验证码点击
..
怎么删除它们???
..
问 题 import sys import time import requests import json reload(sys) sys.setdefaultencoding('utf-8') time=int(time.time()) session=requests.session() user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) Ap
..
问 题 问题描述:pyspider运行一段时间(一天到三天不等)后调度器自动退出.重启pyspider能继续运行 运行环境:linux mint 17.2 通过pip安装的pyspider.使用mongodb做为数据库. 启动配置: { "taskdb": "mongodb+taskdb://localhost/taskdb", "projectdb": "mongodb+
..
问 题 请问大家能不能给我一点提点,我想要知道有没有 简单 一点的 爬虫 案例可以让我摸索学习 目前已知的爬虫工具有: Beautiful Soup Scrapy cola pyspider PyQuery grab 这个问题已被关闭,原因:无法获得确切结果的问题 解决方案 你如果真的沒有概念,以下有一些資訊給你參考,不過重點還是你
..