scrapyd相关内容

一只一只地跑不止一只蜘蛛

我正在使用 Scrapy 框架让蜘蛛爬行一些网页.基本上,我想要的是抓取网页并将它们保存到数据库中.我每个网页有一只蜘蛛.但是我无法立即运行这些蜘蛛,以至于在另一只蜘蛛完成爬行之后,蜘蛛开始爬行.怎样才能做到这一点?scrapyd 是解决方案吗? 解决方案 scrapyd 确实是个好方法,max_proc 或 max_proc_per_cpu 配置可以用来限制并行spdiers的数量,然后 ..
发布时间:2021-07-17 18:33:42 Python

Scrapyd-Deploy:由于使用操作系统路径设置目录而导致的错误

我正在尝试通过scrapyd-deploy 将scrapy 项目部署到远程scrapyd 服务器.当我通过 git push prod 将项目部署到远程服务器时,该项目本身可以正常运行,并且可以在我的本地计算机和远程服务器上完美运行. 使用scrapyd-deploy 时出现此错误: %scrapyd-deploy 示例 -p apo { "node_name": "spider1" ..
发布时间:2021-07-17 18:32:15 其他开发

Scrapy/Python 和 SQL Server

是否可以使用 Scrapy 从网站上抓取数据,并将该数据保存在 Microsoft SQL Server 数据库中? 如果是,是否有这样做的例子?主要是Python问题吗?即如果我发现一些 Python 代码保存到 SQL Server 数据库,那么 Scrapy 可以做同样的事情吗? 解决方案 是的,但是您必须自己编写代码才能完成,因为 scrapy 不提供写入数据库的项目管道. ..
发布时间:2021-07-16 22:26:36 数据库

Scrapy 部署停止工作

我正在尝试使用scrapyd部署scrapy项目,但它给了我错误... sudo scrapy deploy default -p eScrapereScraper-1371463750的构建蛋“build/scripts-2.7"不存在——无法清理它zip_safe 标志未设置;分析存档内容...eScraperInterface.settings: 模块引用 __file__eScraper ..
发布时间:2021-07-16 22:21:43 Python

更改运行蜘蛛的数量scrapyd

嘿,我的项目中有大约 50 个蜘蛛,我目前正在通过 scrapyd 服务器运行它们.我遇到了一个问题,我使用的一些资源被锁定,使我的蜘蛛失败或变得非常慢.我希望他们能通过某种方式告诉 scrapyd 一次只有 1 个正在运行的蜘蛛,而将其余的留在待处理的队列中.我在文档中没有看到这个配置选项.任何帮助将不胜感激! 解决方案 这可以通过 scrapyd 设置.将 max_proc 设置为 1 ..
发布时间:2021-07-16 22:21:13 Python

无法部署scrapy项目

突然我的scrapy部署开始失败: sudo scrapy deploy default -p eScraper密码:eScraper-1372327569的构建蛋“build/scripts-2.7"不存在——无法清理它zip_safe 标志未设置;分析存档内容...eScraper.settings:模块引用 __file__eScraperInterface.settings: 模块引用 ..
发布时间:2021-07-16 22:16:47 Python

使用scrapyd运行多个蜘蛛

我的项目中有多个蜘蛛,所以决定通过上传到scrapyd服务器来运行它们.我已经成功上传了我的项目,当我运行命令时,我可以看到所有的蜘蛛 curl http://localhost:6800/listspiders.json?project=myproject 当我运行以下命令时 curl http://localhost:6800/schedule.json -d project=mypro ..
发布时间:2021-07-16 22:08:47 Python

为什么scrapyd会抛出:“'FeedExporter'对象没有属性'slot'"?例外?

我遇到了这样一种情况,当我从命令行使用时,我的scrapy 代码工作正常,但是当我在部署(scrapy-deploy)和使用scrapyd api 调度后使用相同的蜘蛛时,它会在“scrapy.extensions.extensions"中引发错误.feedexport.FeedExporter"类. 一个是在初始化“open_spider"信号时 第二个是在初始化“item_scrape ..
发布时间:2021-07-16 22:07:46 其他开发

使用scrapyd部署项目时出错

我的项目文件夹中有多个蜘蛛并且想一次运行所有蜘蛛,所以我决定使用scrapyd服务运行它们.我已经开始通过查看这里 首先我在当前项目文件夹中 我打开了 scrapy.cfg 文件并在 之后取消注释 url 行 [部署] 我运行了 scrapy server 命令,运行正常,scrapyd 服务器运行 我试过这个命令 scrapy deploy -l 结果:defa ..
发布时间:2021-07-16 22:06:34 Python

蜘蛛内的 Scrapyd jobid 值

Framework Scrapy - Scrapyd 服务器. 我在蜘蛛中获取 jobid 值时遇到了一些问题. 将数据发布到 http://localhost:6800/schedule.json 后,响应为 status = okjobid = bc2096406b3011e1a2d0005056c00008 但是我需要在这个过程中在当前蜘蛛中使用这个jobid.可用于打开{j ..
发布时间:2021-07-16 22:02:40 Python

找不到scrapyd-client命令

我刚刚在virtualenv中安装了scrapyd-client(1.1.0),并成功运行命令'scrapyd-deploy',但是当我运行'scrapyd-client'时,终端说:找不到命令:scrapyd-客户端. 根据自述文件(https://github.com/scrapy/scrapyd-client),应该有一个 'scrapyd-client' 命令. 我检查了路径“ ..
发布时间:2021-07-16 22:01:12 Python

如何以编程方式设置和启动 Scrapy 蜘蛛(网址和设置)

我使用scrapy编写了一个工作爬虫, 现在想通过一个django webapp来控制,也就是说: 设置 1 个或多个 start_urls 设置 1 个或多个 allowed_domains 设置settings 值 启动蜘蛛 停止/暂停/恢复蜘蛛 在运行时检索一些统计数据 在蜘蛛完成后检索一些统计数据. 起初我以为 scrapyd 是为此而制作的,但是阅读文档后,它似 ..
发布时间:2021-07-16 21:57:50 Python

在后台/作为服务运行 Scrapyd 的首选方式

我正在尝试在虚拟 Ubuntu 16.04 服务器上运行 Scrapyd,我通过 SSH 连接到该服务器.当我通过简单地运行 来运行scrapy时 $scrapyd 我可以通过转至 http://82.165.102.18:6800 连接到网络界面.> 但是,一旦我关闭 SSH 连接,Web 界面就不再可用,因此,我认为我需要以某种方式在后台运行 Scrapyd 作为服务. 经过一些 ..
发布时间:2021-07-16 21:53:44 其他开发

使用scrapyd有什么好处?

scrapy doc 说: Scrapy 附带一个名为“Scrapyd"的内置服务,它允许您使用 JSON 网络服务部署(又名上传)您的项目并控制它们的爬虫. 合规使用scrapyd有什么优势吗? 解决方案 Scrapyd 允许您通过方便的 Web API 在与您使用的机器不同的机器上运行 scrapy,这意味着您只需使用 curl 甚至是 Web 浏览器来上传新的项目版本并运 ..
发布时间:2021-07-16 21:51:01 其他开发

运行多个 Scrapy Spider(简单的方法)Python

Scrapy 非常酷,但是我发现文档非常简单,一些简单的问题很难回答.在将来自各种 stackoverflow 的各种技术结合在一起后,我终于想出了一种简单且不过分技术性的方法来运行多个 scrapy Spider.我想它比尝试实现scrapyd等技术更少: 所以这里有一个蜘蛛,它可以很好地完成它在表单请求后抓取一些数据的一项工作: from scrapy.spider import Ba ..
发布时间:2021-07-16 21:49:57 Python

Scrapy 的 Scrapyd 调度蜘蛛太慢

我正在运行 Scrapyd 并且在同时启动 4 个蜘蛛时遇到一个奇怪的问题. 2012-02-06 15:27:17+0100 [HTTPChannel,0,127.0.0.1] 127.0.0.1 - - [06/Feb/2012:14:27:16 +0000] "POST/schedule.json HTTP/1.1" 200 62 "-" "python-requests/0.10.1"2 ..
发布时间:2021-07-16 21:45:58 Python

使用scrapyd一次运行多个scrapy蜘蛛

我正在将 scrapy 用于一个我想抓取多个站点(可能是数百个)的项目,并且我必须为每个站点编写一个特定的蜘蛛.我可以在部署到scrapyd的项目中使用一个蜘蛛: curl http://localhost:6800/schedule.json -d project=myproject -d spider=spider2 但是我如何一次在一个项目中安排所有蜘蛛? 非常感谢所有帮助! ..
发布时间:2021-07-16 21:45:25 Python