网页爬虫 - IT屋-程序员软件开发技术分享社区

python - SAE运行爬虫，BeautifulSoup无法加载lxml?

整个代码在本地没有问题，当上传到SAE后就出现错误。然后我又把lxml库上传到了根目录下的site-packages中，结果仍然如此。我个人猜测是BeautifulSoup在使用这个解析器并不是简单的导入lxml模块 ..

发布时间：2017-09-06 12:37:42 beautifulsoup 网页爬虫 python Python

python - 知乎现在怎么抓登入的那些信息的

问题之前使用F12进行追踪查看知乎登入信息，还能看到一些login的内容，现在咋都看不到信息了。解决方案 f12,然后把密码输错的，应该就可以了 ..

发布时间：2017-09-06 12:36:01 网页爬虫 python Python

python - 爬虫爬https站点怎么处理的？

问题一段模拟登入知乎的问题 PS:这里不讨论验证码问题，我的账号登入没有提示验证码代码信息： # /usr/bin/python #coding:utf-8 __author__ = 'eyu Fanne' import requests,time from bs4 import BeautifulSoup begintime = time.time() hea ..

发布时间：2017-09-06 12:30:05 网页爬虫 python Python

网页爬虫 - python访问次数过于频繁被域名限制访问

问题今天学习Python爬虫的时候，对于某个的域名访问次数有点多，到最后导致整个公司ping这个域名都出现超时（一个科技资讯网站，我也是非恶意）。想了解是否我的访问被视为了DDOS攻击而被这个网站限制访问了？能否稍微介绍一下Python爬虫如何避免被视为DDOS攻击？解决方案一般这种情况时，我会先到 VPS 上 ping 一下目标域名，看看是不是他家网站挂了…… 如 ..

发布时间：2017-09-06 12:28:10 网页爬虫 python Python

网页爬虫 - 如果我用python爬虫爬本站内容，会遇到哪些问题？

问题我知道你们爬过~~求教~ 我爬了不作为商业目的，只是作为分享，并注明是谁写的？会有问题么？解决方案不用爬。。如果你是练手做爬虫无所谓如果你单方面用数据干点什么。。sf是提供feed的啊 xml解析不比html好多了 https://segmentfault.com/feeds ..

发布时间：2017-09-06 12:06:05 网页爬虫 python Python

python - 淘宝模拟登陆抓取失败

问题淘宝模拟登陆抓取失败 # __author__ = '' # -*- coding: utf-8 -*- import requests import re s = requests.session() login_data = {'email': 'xxx', 'password': 'xxx', } headers = {'User-Agent':'Mozilla/5.0 ..

发布时间：2017-09-06 11:58:47 网页爬虫 python Python

python - 禁止自己的网站被爬虫爬去？

问题禁止自己的网站被爬虫爬去？有什么方法啊解决方案加一个robots.txt文件，内容： User-agent: * Disallow: / ..

发布时间：2017-09-06 11:56:32 网页爬虫 python Python

网页爬虫 - python:爬取带有下拉框日期的数据？

问题需要用到这方面的数据，单独一页一页的复制了一段时间的数据，发现很是耗时，想从深圳市环保局下载空气质量历史数据。选择日期后，页面出现一个相应的数据表格，每天有24个时间点的。需要将每一天每一个小时的数据都爬下来。页面如下：网址：http://www.szhec.gov.cn/pages/szepb/kqzl... 麻烦大家解决方案使用requests.post ..

发布时间：2017-09-06 11:55:13 网页爬虫 python Python

正则表达式 - Python 3.5 如何对中文字符串进行处理?

问题 python初学者，写一个简单的爬虫程序，在处理标题的时候遇到的问题按照网文的写法，好像应该先 txt = "大家好我叫123abc" str1 = txt.decode('gb2312') str2 = str1.encode('utf-8') 但是编译结果显示 AttributeError: 'str' object has no attribute 'decod ..

发布时间：2017-09-06 11:41:20 正则表达式字符串处理网页爬虫 python Python

php - 爬虫的参数问题

现在再做一个爬虫，但是有一个问题，通过浏览器的开发工具找到了请求，但是模拟传入POST总是不对，这是这个请求的参数主要是想请教一下query string parameters和formdata，这两个参数有什么区别，之前做的爬虫参数都在formdata里，直接按照格式提交参数就成功了，也就没有太在意，但是今天这个页面的爬虫时总是不成功，不是很明白为什么，请有经验的大神指点一二 ..

发布时间：2017-09-06 11:16:33 python php 网页爬虫 PHP

网页爬虫 - python爬取大众点评网伪装浏览器返回出现403错误

问题 hi，各位好，我在爬大众点评的这个网页http://www.dianping.com/search/keyword/2/75_%E6%96%B0%E4%B8%9C%E6%96%B9，用的request包获取网页源码，header主要添加了user-agent和cookie，但为什么总是返回错误？求助，谢谢各位了！ PS：用curl可以返回正常的源码，没有被封IP import ..

发布时间：2017-09-06 11:00:04 网页爬虫 python Python

网页爬虫 - linux执行php进程的问题

问题用phpfetch框架写了个php的爬虫，他这个框架的用法是执行php filename.php命令（因为我放在了阿里云上，所以用的putty），但是这样的话，我的电脑就不能关putty（电脑也不能关机），否则的话爬虫就会停止执行。我想问怎么才能我输上执行php进程的命令以后，我就可以关掉putty，然后爬虫爬完一遍自己结束就好了。解决方案 nohup php fi ..

发布时间：2017-09-06 10:56:08 php 网页爬虫 PHP

网页爬虫 - python处理中文

问题最近在学习python爬虫，用的scrapy，基本流程都通顺了，但是发现解析页面中文的时候比较头大。比如抽取到的内容可能含有《【等字符，这个时候怎么处理? 另外，xpath搜索的时候也有可能需要通过中文匹配，怎么破？解决方案可以考虑采用正则匹配。参考这篇文章：http://blog.csdn.net/gatieme/article/detail ..

发布时间：2017-09-06 10:52:34 网页爬虫 python Python

网页爬虫 - Python的爬虫的问题？

问题最近自己从很多途径了解到Python爬虫这个概念。但是自己还没有来得及查阅资料去深入的了解。所以我就想问一下： 1.Python爬虫具体应用来做什么？ 2.Python爬虫具体应该怎么使用？ 3.Python的原理是什么？解决方案 python爬虫用来“抄”网站的资源，就是把一个网站及该网站上的超链接都下载下来怎么使用。。。看你怎么编了啊。。一般是设置 ..

发布时间：2017-09-06 10:51:55 网页爬虫 python Python

网页爬虫 - 淘宝python爬虫

问题在爬天猫数据的时候出现Redirect Limits的报错，猜测是302一直跳转的问题？然后试着模拟了cookie，发现有三个值是必须要有的 cookie2=; t=; _tb_token_= 但是苦于这三个值不知道如何获取，所以部署到线上就出错了，有高手知道如何解决吗？谢谢解决方案先拉一下天描的主页把cookie存下来，再去访问具体的页面 ..

发布时间：2017-09-06 10:36:47 网页爬虫 python爬虫 python Python

网页爬虫 - python 爬虫：验证码一直错误

问题我用这样的程序去爬类似的有验证码的网站，都能取到正确的数据。只有这个网站，很奇怪啊！一直验证码错误，我只能用代理IP去爬，程序运行两三次，就会IP封了。求解，之前一直以为是取验证码图片时，验证码刷新了，所以不对。所以我直接取的验证码，然后再去页面get数据。其他网站用这个方法都能行，只有这个一直错误！！！！！！！补充：我在fiddler里面看到的过程是，首先手动输入验证码点击 ..

发布时间：2017-09-06 10:33:19 scrapy 网页爬虫 python Python

python - 爬虫爬取图片保存成了白色的文件，无法删除

怎么删除它们？？？ ..

发布时间：2017-09-06 10:31:11 网页爬虫爬虫图片 python Python

网页爬虫 - python 爬虫问题，请问为什么我爬不下这个的数据？求解，网站都能打开。

问题 import sys import time import requests import json reload(sys) sys.setdefaultencoding('utf-8') time=int(time.time()) session=requests.session() user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) Ap ..

发布时间：2017-09-06 10:31:10 python爬虫网页爬虫 python Python

python - mongodb做为数据库不稳定，请问怎么怎么分析原因？

问题问题描述：pyspider运行一段时间（一天到三天不等）后调度器自动退出．重启pyspider能继续运行运行环境：linux mint 17.2 通过pip安装的pyspider．使用mongodb做为数据库．启动配置： { "taskdb": "mongodb+taskdb://localhost/taskdb", "projectdb": "mongodb+ ..

发布时间：2017-09-06 10:31:01 网页爬虫 pyspider python Python

网页爬虫 - python爬虫案例

问题请问大家能不能给我一点提点，我想要知道有没有简单一点的爬虫案例可以让我摸索学习目前已知的爬虫工具有: Beautiful Soup Scrapy cola pyspider PyQuery grab 这个问题已被关闭，原因：无法获得确切结果的问题解决方案你如果真的沒有概念，以下有一些資訊給你參考，不過重點還是你 ..

发布时间：2017-09-06 10:27:26 scrapy beautifulsoup 网页爬虫 crawler python Python

网页爬虫相关内容