pyspider相关内容

Scrapy 可以被 pyspider 取代吗?

我一直在广泛使用 Scrapy 网络抓取框架,但是,最近我发现还有另一个框架/系统叫做 pyspider,根据它的 github 页面,它是新鲜、积极开发和流行的. pyspider 的主页列出了一些现成支持的内容: 带有脚本编辑器、任务监视器、项目经理和结果查看器的强大 WebUI 支持Javascript页面! 任务优先级、重试、周期性和按年龄或索引页面中的标记(如更新 ..
发布时间:2021-07-16 21:49:42 Python

使用scrapy从200k域中提取文本

我的问题是:我想从某个域中提取所有有价值的文本,例如 www.example.com.所以我去这个网站并访问最大深度为2的所有链接并将其写入csv文件. 我在 scrapy 中编写了模块,它使用 1 个进程并产生多个爬虫解决了这个问题,但效率低下 - 我能够爬取 ~1k 个域/~5k 个网站/h,据我所知,我的瓶颈是CPU(因为 GIL?).离开我的电脑一段时间后,我发现我的网络连接中断了. ..
发布时间:2021-06-11 18:42:39 Python

pyspider 如何捕捉网页下拉刷新的这种分页?

问 题 点击事件的我看了一些例子,名表了如何操作; 但下拉刷新的话,网页自动就刷新了,这个如何捕捉呢? 另外:我看一些例子中,直接就加上fetch_type='js',这句话,它会自动刷新; 没看到有跟翻页相关的内容了啊。 解决方案 什么叫「下拉刷新的话,网页自动就刷新了」,如果页面自动刷新了,按照我的理解,页面重新加载了? 那么就产生了一个新的请求,那么不需要捕获 ..
发布时间:2017-09-06 11:08:22 其他开发

python - pyspider遇到不能识别的url时报错

大家好,我遇到一个很棘手的问题想请教大家是怎么解决的。 问题描述: pyspider遇到不规则的html页面时,只要其实包含不能正常解析的url时就会报错,如页面http://www.jb51.net/os/windows/win2008/18272.html,其中就有 作者: ..
发布时间:2017-09-06 11:03:24 Python

pyspider 如何将数据写入 elasticsearch

问 题 pyspider 如何将数据写入 elasticsearch 两个都是独立的docker 解决方案 从 0.3.7 开始,pyspider 内置了 elasticsearch 支持,你只需要将 resultdb 设置为 elasticsearch 即可。 如果你使用的是 docker,而且端口没有映射到 host,需要将镜像 link,具体参考 docker 文档。 ..
发布时间:2017-09-06 10:47:40 其他开发

python - pyspider使用docker 集群部署 nginx设置问题

按照《demo.pyspider.org 部署经验》这篇文章内容,进行分布式部署,使用mysql数据。其中所有docker服务都已经启动,但是由于不知道nginx如何设置,一直访问不起来,原文中也没提到ngix设置。 docker如下: 请大神告知ngix如何设置。 ..
发布时间:2017-09-06 08:56:21 Python

python - 在没有webui情况下,如何使用pyspider调试爬虫?

问 题 我们的pyspider部署在远程服务器上,只能通过shell远程登录文本界面,webui没法访问。 请问如何在远程服务器上调试爬虫?例如部署爬虫代码,启动project,停止project等。 解决方案 自己稍微研究了pyspider源码,成功试验了一个方案。方案背景如下: 1)首先,在webui里编写代码后点击保存时会将代码按照一定的格式写入数据库; 2)把工程状 ..
发布时间:2017-09-06 08:03:34 Python

python爬虫 - crawl 连接网页超时,HTTP 599

unbuntu , pyspider 抓的是某宝的商品详情页,出现问题,始终连接不上。 上一级,商品的列表页,没有问题,也是使用了js的。 错误提示信息:[E 160630 14:21:42 base_handler:195] HTTP 599: Operation timed out after 120001 milliseconds with 0 bytes receive -- ..
发布时间:2017-09-06 07:22:30 其他开发

pyspider - 如何给phantomjs组件加代理

问 题 在pyspider里面,通过 proxy可以设置代理IP,但需要通过phantomjs去请求带有js的网页时,phantomjs并不能使用通过在crawl()中设置的代理,请问该如何设置?看了一下phantomjs的官方文档,貌似也没有很详细的介绍。求解决思路,是否需要修改源码?谢谢 解决方案 1、升级PhantomJS到最新版(老版本不支持设置代理,官方的文档木有相关说 ..
发布时间:2017-09-06 07:19:07 其他开发

pyspider - 如何开启多个phantomjs组件

问 题 发现fetcher、processor等其他组件开启了多个以后,性能的瓶颈就在phantomjs上。因为phantomjs是有定时重启,会导致重启期间、处理任务的过程中(只支持10个并发?)时间过长时,交给phantomjs处理的任务出现一部分失败。所以,有以下两个想法: 开启多个phantomjs组建,发现使用 pyspider -c pyspider.json phanto ..
发布时间:2017-09-06 07:14:38 其他开发

网页爬虫 - pyspider为什么调试的时候能抓到内容,点run的时候就没有数据写入数据库呢?

问 题 1、win10下装anaconda3环境,然后装了pyspider0.3.8(没有手动修复crawl_config不起作用的bug),写了个抓取网页新闻的project,经常调试的时候能抓到新闻,但是点run就没有数据写入数据库,很是奇怪,源码附后,请大神指正。 2、源码如下: from pyspider.libs.base_handler import * import ..
发布时间:2017-09-06 07:05:42 其他开发

python - 爬虫没有按配置的时间运行,是为什么?

需求是这样,我把所有的url存在了mongo库,想每天查一遍url,抓一遍数据,可是周末并没有执行, 这个项目的日志 项目配置是这样的,我修改过几次itag,让项目重跑,别的项目也遇到几天不跑 @every(minutes=10) def on_start(self): """运行入口""" self.crawl('data:, on_c ..
发布时间:2017-09-06 05:56:35 Python