python - pyspider scheduler 停止调度,重启时间长.

查看:477
本文介绍了python - pyspider scheduler 停止调度,重启时间长.的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

问 题

  1. 当前的pyspider为pyspider (0.3.9) python 2.7.5

  2. 大概有200个项目,其中部分stop,运行状态大概有100多个。

  3. projectdb和resultdb 使用的是 mongodb collection有过百万的数据。
    某些porjectdb 的task数据也有数十万条

  4. 当我修改项目的itag 然后修改项目状态为running,然后点run,显示为红色,看scheduler日志提示当前项目状态不是run或者debug,然后schedular停止调度了。

  5. scheduler运行一段时间也有时 停止调度。

当重启scheduler 会打印很多
诸如 :

  • [E 161019 15:07:37 scheduler:241] unknown project: whole_***

  • [E 161019 15:22:46 scheduler:767] not processing pack: **********:2e8087192edf9a9922701d2370cdcf5d http://www.******.com/157405/
    这样的报错, 重启过程特别慢,将近两个小时,看日志没有其它别的异常。

解决方案

scheduler 停止调度是所有 project 都停止调度还是你尝试重启的那个停止调度?

追踪 scheduler 日志关于 project %s updated, status:%s, paused:%s, %d tasks 的内容,看看 schduler 是否得知 project 状态已改变。

unknown project 如果 project 确实存在,是不应该出现的
not processing pack 是正常的,scheduler 重启后,先前分发的任务就没法追踪了
启动时 scheduler 需要从数据库中恢复所有活动任务的状态,如果任务很多确实会比较耗时

这篇关于python - pyspider scheduler 停止调度,重启时间长.的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆