pyspider - IT屋-程序员软件开发技术分享社区

Scrapy 可以被 pyspider 取代吗?

我一直在广泛使用 Scrapy 网络抓取框架，但是，最近我发现还有另一个框架/系统叫做 pyspider，根据它的 github 页面，它是新鲜、积极开发和流行的. pyspider 的主页列出了一些现成支持的内容: 带有脚本编辑器、任务监视器、项目经理和结果查看器的强大 WebUI 支持Javascript页面！任务优先级、重试、周期性和按年龄或索引页面中的标记(如更新 ..

发布时间：2021-07-16 21:49:42 python web-scraping scrapy web-crawler pyspider Python

我的问题是:我想从某个域中提取所有有价值的文本，例如 www.example.com.所以我去这个网站并访问最大深度为2的所有链接并将其写入csv文件. 我在 scrapy 中编写了模块，它使用 1 个进程并产生多个爬虫解决了这个问题，但效率低下 - 我能够爬取 ~1k 个域/~5k 个网站/h，据我所知，我的瓶颈是CPU(因为 GIL?).离开我的电脑一段时间后，我发现我的网络连接中断了. ..

发布时间：2021-06-11 18:42:39 python scrapy web-crawler nutch pyspider Python

python - pyspider启动时出现Unkonwn option '--ssl-protocol=any'

linux 系统，已经安装phantomjs， phantomjs 版本如下图： ..

发布时间：2017-09-06 12:21:09 pyspider phantomjs python Python

python2.7 - pyspider遇到unknow option '--ssl-protocol=any'问题

在linux上运行pyspider pip 相关的包后到程序文件夹运行程序 ./run.py 出现错误如图：问题一：AttributeError:'module' object has no attribute ThreadBaseScheduler 问题二：Unknow option '--ssl-protocol=any' 求大神指点程序运行在树莓派上，py ..

发布时间：2017-09-06 12:21:07 python爬虫 python2.7 pyspider 其他开发

python - pyspider按下run时，run按键是红色并且命令行有提示错误如下

在命令行中提示[E 160502 23:55:23 scheduler:170] unknown project: taobaoMM ..

发布时间：2017-09-06 11:12:51 pyspider python Python

pyspider 如何捕捉网页下拉刷新的这种分页？

问题点击事件的我看了一些例子，名表了如何操作；但下拉刷新的话，网页自动就刷新了，这个如何捕捉呢？另外：我看一些例子中，直接就加上fetch_type='js'，这句话，它会自动刷新；没看到有跟翻页相关的内容了啊。解决方案什么叫「下拉刷新的话，网页自动就刷新了」，如果页面自动刷新了，按照我的理解，页面重新加载了？那么就产生了一个新的请求，那么不需要捕获 ..

发布时间：2017-09-06 11:08:22 下拉刷新 pyspider 其他开发

python - pyspider遇到不能识别的url时报错

大家好，我遇到一个很棘手的问题想请教大家是怎么解决的。问题描述： pyspider遇到不规则的html页面时，只要其实包含不能正常解析的url时就会报错,如页面http://www.jb51.net/os/windows/win2008/18272.html，其中就有作者： ..

发布时间：2017-09-06 11:03:24 pyspider python Python

pyspider 如何将数据写入 elasticsearch

问题 pyspider 如何将数据写入 elasticsearch 两个都是独立的docker 解决方案从 0.3.7 开始，pyspider 内置了 elasticsearch 支持，你只需要将 resultdb 设置为 elasticsearch 即可。如果你使用的是 docker，而且端口没有映射到 host，需要将镜像 link，具体参考 docker 文档。 ..

发布时间：2017-09-06 10:47:40 elasticsearch pyspider 其他开发

python - mongodb做为数据库不稳定，请问怎么怎么分析原因？

问题问题描述：pyspider运行一段时间（一天到三天不等）后调度器自动退出．重启pyspider能继续运行运行环境：linux mint 17.2 通过pip安装的pyspider．使用mongodb做为数据库．启动配置： { "taskdb": "mongodb+taskdb://localhost/taskdb", "projectdb": "mongodb+ ..

发布时间：2017-09-06 10:31:01 网页爬虫 pyspider python Python

python - 请教使用supervisor启动pyspider运行中phantomjs进程数量过多问题

问题下面是supervisor的配置 [program:pyspider] command=/usr/local/bin/pyspider -c /root/config.json autostart=true autorestart=true user=root directory=/root 不使用supervisor来启动pyspider,phantomjs进程为2个. ..

发布时间：2017-09-06 09:13:55 supervisor python pyspider Python

python - pyspider使用docker 集群部署 nginx设置问题

按照《demo.pyspider.org 部署经验》这篇文章内容，进行分布式部署，使用mysql数据。其中所有docker服务都已经启动，但是由于不知道nginx如何设置，一直访问不起来，原文中也没提到ngix设置。 docker如下：请大神告知ngix如何设置。 ..

发布时间：2017-09-06 08:56:21 pyspider python Python

python - 在没有webui情况下，如何使用pyspider调试爬虫？

问题我们的pyspider部署在远程服务器上，只能通过shell远程登录文本界面，webui没法访问。请问如何在远程服务器上调试爬虫？例如部署爬虫代码，启动project，停止project等。解决方案自己稍微研究了pyspider源码，成功试验了一个方案。方案背景如下： 1）首先，在webui里编写代码后点击保存时会将代码按照一定的格式写入数据库； 2）把工程状 ..

发布时间：2017-09-06 08:03:34 pyspider python Python

python3.5 - pyspider点击run后再点绿箭头出现python停止错误

初学pyspider 环境为windows7 64位；python3.5.2 64位；anaconda3 4.1.1 64位 phantomjs-2.1.1部署在 C:Anaconda3Scripts目录下使用wheel lxml-3.6.1-cp35-cp35m-win_amd64.whl 安装lxml 使用 pip install pyspider 顺利安装pyspider cm ..

发布时间：2017-09-06 07:56:25 python3.5 pyspider python Python

python - 为什么pyspider在爬取网页的时候，fiddler抓不到包？

问题我是在本地配置的服务器。解决方案 Fiddler可以抓取使用它做代理的数据包，你要确保pyspider配置了Fiddler的代理。 ..

发布时间：2017-09-06 07:25:55 fiddler pyspider python Python

python爬虫 - crawl 连接网页超时，HTTP 599

unbuntu , pyspider 抓的是某宝的商品详情页，出现问题，始终连接不上。上一级，商品的列表页，没有问题，也是使用了js的。错误提示信息：[E 160630 14:21:42 base_handler:195] HTTP 599: Operation timed out after 120001 milliseconds with 0 bytes receive -- ..

发布时间：2017-09-06 07:22:30 python爬虫 pyspider 其他开发

pyspider - 如何给phantomjs组件加代理

问题在pyspider里面，通过 proxy可以设置代理IP，但需要通过phantomjs去请求带有js的网页时，phantomjs并不能使用通过在crawl()中设置的代理，请问该如何设置？看了一下phantomjs的官方文档，貌似也没有很详细的介绍。求解决思路，是否需要修改源码？谢谢解决方案 1、升级PhantomJS到最新版（老版本不支持设置代理，官方的文档木有相关说 ..

发布时间：2017-09-06 07:19:07 pyspider phantomjs 其他开发

pyspider - 如何开启多个phantomjs组件

问题发现fetcher、processor等其他组件开启了多个以后，性能的瓶颈就在phantomjs上。因为phantomjs是有定时重启，会导致重启期间、处理任务的过程中（只支持10个并发？）时间过长时，交给phantomjs处理的任务出现一部分失败。所以，有以下两个想法：开启多个phantomjs组建，发现使用 pyspider -c pyspider.json phanto ..

发布时间：2017-09-06 07:14:38 phantomjs pyspider 其他开发

网页爬虫 - pyspider为什么调试的时候能抓到内容，点run的时候就没有数据写入数据库呢？

问题 1、win10下装anaconda3环境，然后装了pyspider0.3.8（没有手动修复crawl_config不起作用的bug），写了个抓取网页新闻的project，经常调试的时候能抓到新闻，但是点run就没有数据写入数据库，很是奇怪，源码附后，请大神指正。 2、源码如下： from pyspider.libs.base_handler import * import ..

发布时间：2017-09-06 07:05:42 网页爬虫 python3.x pyspider 其他开发

javascript - 爬虫抓取优酷电影评论，如何编写js来模拟点击“下一页”的鼠标事件？

问题本人想通过爬虫爬取优酷电影的评论信息，例如： http://v.youku.com/v_show/id_... 一般网站在“下一页”按钮的html标签里都会有下一页的超链接，但是优酷的是这样的： ..

发布时间：2017-09-06 06:16:26 pyspider javascript 前端开发

python - 爬虫没有按配置的时间运行，是为什么？

需求是这样，我把所有的url存在了mongo库，想每天查一遍url，抓一遍数据，可是周末并没有执行，这个项目的日志项目配置是这样的，我修改过几次itag，让项目重跑，别的项目也遇到几天不跑 @every(minutes=10) def on_start(self): """运行入口""" self.crawl('data:, on_c ..

发布时间：2017-09-06 05:56:35 pyspider python Python

pyspider相关内容