scrapyd - IT屋-程序员软件开发技术分享社区

使用 Feed Exporter 将项目从 Scrapyd 保存到 Amazon S3

在亚马逊 S3 上使用 Scrapy 相当简单，你设置: FEED_URI = 's3://MYBUCKET/feeds/%(name)s/%(time)s.jl' FEED_FORMAT = 'jsonlines' AWS_ACCESS_KEY_ID = [访问密钥] AWS_SECRET_ACCESS_KEY = [密钥] 一切正常. 但 Scrapyd 似乎覆盖了该设 ..

发布时间：2022-01-04 20:58:58 amazon-s3 scrapy scrapyd 其他开发

一只一只地跑不止一只蜘蛛

我正在使用 Scrapy 框架让蜘蛛爬行一些网页.基本上，我想要的是抓取网页并将它们保存到数据库中.我每个网页有一只蜘蛛.但是我无法立即运行这些蜘蛛，以至于在另一只蜘蛛完成爬行之后，蜘蛛开始爬行.怎样才能做到这一点?scrapyd 是解决方案吗? 解决方案 scrapyd 确实是个好方法，max_proc 或 max_proc_per_cpu 配置可以用来限制并行spdiers的数量，然后 ..

发布时间：2021-07-17 18:33:42 python scrapy scrapyd Python

Scrapyd-Deploy:找不到 SPIDER_MODULES

我正在尝试使用scrapy-deploy 1.2 部署scrapy 2.1.0 项目并收到此错误: scrapyd-deploy 示例/Library/Frameworks/Python.framework/Versions/3.8/bin/scrapyd-deploy:23: ScrapyDeprecationWarning: 模块 `scrapy.utils.http` 已弃用，请改为从 ` ..

发布时间：2021-07-17 18:32:59 scrapy scrapyd scrapyd-deploy 其他开发

Scrapyd-Deploy:由于使用操作系统路径设置目录而导致的错误

我正在尝试通过scrapyd-deploy 将scrapy 项目部署到远程scrapyd 服务器.当我通过 git push prod 将项目部署到远程服务器时，该项目本身可以正常运行，并且可以在我的本地计算机和远程服务器上完美运行. 使用scrapyd-deploy 时出现此错误: %scrapyd-deploy 示例 -p apo { "node_name": "spider1" ..

发布时间：2021-07-17 18:32:15 scrapy scrapyd scrapyd-deploy 其他开发

Scrapy/Python 和 SQL Server

是否可以使用 Scrapy 从网站上抓取数据，并将该数据保存在 Microsoft SQL Server 数据库中? 如果是，是否有这样做的例子?主要是Python问题吗?即如果我发现一些 Python 代码保存到 SQL Server 数据库，那么 Scrapy 可以做同样的事情吗? 解决方案是的，但是您必须自己编写代码才能完成，因为 scrapy 不提供写入数据库的项目管道. ..

发布时间：2021-07-16 22:26:36 sql-server scrapy scrapyd 数据库

Scrapy 部署停止工作

我正在尝试使用scrapyd部署scrapy项目，但它给了我错误... sudo scrapy deploy default -p eScrapereScraper-1371463750的构建蛋“build/scripts-2.7"不存在——无法清理它zip_safe 标志未设置；分析存档内容...eScraperInterface.settings: 模块引用 __file__eScraper ..

发布时间：2021-07-16 22:21:43 python scrapy scrapyd Python

更改运行蜘蛛的数量scrapyd

嘿，我的项目中有大约 50 个蜘蛛，我目前正在通过 scrapyd 服务器运行它们.我遇到了一个问题，我使用的一些资源被锁定，使我的蜘蛛失败或变得非常慢.我希望他们能通过某种方式告诉 scrapyd 一次只有 1 个正在运行的蜘蛛，而将其余的留在待处理的队列中.我在文档中没有看到这个配置选项.任何帮助将不胜感激！解决方案这可以通过 scrapyd 设置.将 max_proc 设置为 1 ..

发布时间：2021-07-16 22:21:13 python python-2.7 scrapy scrapyd scrapy-spider Python

无法部署scrapy项目

突然我的scrapy部署开始失败: sudo scrapy deploy default -p eScraper密码:eScraper-1372327569的构建蛋“build/scripts-2.7"不存在——无法清理它zip_safe 标志未设置；分析存档内容...eScraper.settings:模块引用 __file__eScraperInterface.settings: 模块引用 ..

发布时间：2021-07-16 22:16:47 python scrapy scrapyd Python

使用scrapyd运行多个蜘蛛

我的项目中有多个蜘蛛，所以决定通过上传到scrapyd服务器来运行它们.我已经成功上传了我的项目，当我运行命令时，我可以看到所有的蜘蛛 curl http://localhost:6800/listspiders.json?project=myproject 当我运行以下命令时 curl http://localhost:6800/schedule.json -d project=mypro ..

发布时间：2021-07-16 22:08:47 python scrapy web-crawler scrapyd Python

为什么scrapyd会抛出:“'FeedExporter'对象没有属性'slot'"?例外?

我遇到了这样一种情况，当我从命令行使用时，我的scrapy 代码工作正常，但是当我在部署(scrapy-deploy)和使用scrapyd api 调度后使用相同的蜘蛛时，它会在“scrapy.extensions.extensions"中引发错误.feedexport.FeedExporter"类. 一个是在初始化“open_spider"信号时第二个是在初始化“item_scrape ..

发布时间：2021-07-16 22:07:46 scrapy twisted scrapyd 其他开发

使用scrapyd部署项目时出错

我的项目文件夹中有多个蜘蛛并且想一次运行所有蜘蛛，所以我决定使用scrapyd服务运行它们.我已经开始通过查看这里首先我在当前项目文件夹中我打开了 scrapy.cfg 文件并在之后取消注释 url 行 [部署] 我运行了 scrapy server 命令，运行正常，scrapyd 服务器运行我试过这个命令 scrapy deploy -l 结果:defa ..

发布时间：2021-07-16 22:06:34 python scrapy scrapyd Python

蜘蛛内的 Scrapyd jobid 值

Framework Scrapy - Scrapyd 服务器. 我在蜘蛛中获取 jobid 值时遇到了一些问题. 将数据发布到 http://localhost:6800/schedule.json 后，响应为 status = okjobid = bc2096406b3011e1a2d0005056c00008 但是我需要在这个过程中在当前蜘蛛中使用这个jobid.可用于打开{j ..

发布时间：2021-07-16 22:02:40 python scrapy scrapyd Python

找不到scrapyd-client命令

我刚刚在virtualenv中安装了scrapyd-client(1.1.0)，并成功运行命令'scrapyd-deploy'，但是当我运行'scrapyd-client'时，终端说:找不到命令:scrapyd-客户端. 根据自述文件(https://github.com/scrapy/scrapyd-client)，应该有一个 'scrapyd-client' 命令. 我检查了路径“ ..

发布时间：2021-07-16 22:01:12 python scrapy web-crawler scrapyd Python

如何以编程方式设置和启动 Scrapy 蜘蛛(网址和设置)

我使用scrapy编写了一个工作爬虫，现在想通过一个django webapp来控制，也就是说: 设置 1 个或多个 start_urls 设置 1 个或多个 allowed_domains 设置settings 值启动蜘蛛停止/暂停/恢复蜘蛛在运行时检索一些统计数据在蜘蛛完成后检索一些统计数据. 起初我以为 scrapyd 是为此而制作的，但是阅读文档后，它似 ..

发布时间：2021-07-16 21:57:50 python scrapy scrapyd Python

在后台/作为服务运行 Scrapyd 的首选方式

我正在尝试在虚拟 Ubuntu 16.04 服务器上运行 Scrapyd，我通过 SSH 连接到该服务器.当我通过简单地运行来运行scrapy时 $scrapyd 我可以通过转至 http://82.165.102.18:6800 连接到网络界面.> 但是，一旦我关闭 SSH 连接，Web 界面就不再可用，因此，我认为我需要以某种方式在后台运行 Scrapyd 作为服务. 经过一些 ..

发布时间：2021-07-16 21:53:44 ubuntu scrapy scrapyd 其他开发

Portia Spider 日志在爬行期间显示 ['Partial']

我使用 Portia 网络爬虫创建了一个蜘蛛，起始 URL 是 https://www1.apply2jobs.com/EdwardJonesCareers/ProfExt/index.cfm?fuseaction=mExternal.searchJobs 在scrapyd中调度这个蜘蛛时，我得到了 DEBUG: Crawled (200) (参考:无)['部分']调试:爬行 (200) ..

发布时间：2021-07-16 21:53:11 python web-scraping scrapy scrapyd portia Python

使用scrapyd有什么好处?

scrapy doc 说: Scrapy 附带一个名为“Scrapyd"的内置服务，它允许您使用 JSON 网络服务部署(又名上传)您的项目并控制它们的爬虫. 合规使用scrapyd有什么优势吗? 解决方案 Scrapyd 允许您通过方便的 Web API 在与您使用的机器不同的机器上运行 scrapy，这意味着您只需使用 curl 甚至是 Web 浏览器来上传新的项目版本并运 ..

发布时间：2021-07-16 21:51:01 scrapy scrapyd 其他开发

运行多个 Scrapy Spider(简单的方法)Python

Scrapy 非常酷，但是我发现文档非常简单，一些简单的问题很难回答.在将来自各种 stackoverflow 的各种技术结合在一起后，我终于想出了一种简单且不过分技术性的方法来运行多个 scrapy Spider.我想它比尝试实现scrapyd等技术更少: 所以这里有一个蜘蛛，它可以很好地完成它在表单请求后抓取一些数据的一项工作: from scrapy.spider import Ba ..

发布时间：2021-07-16 21:49:57 python scrapy scrapyd Python

Scrapy 的 Scrapyd 调度蜘蛛太慢

我正在运行 Scrapyd 并且在同时启动 4 个蜘蛛时遇到一个奇怪的问题. 2012-02-06 15:27:17+0100 [HTTPChannel,0,127.0.0.1] 127.0.0.1 - - [06/Feb/2012:14:27:16 +0000] "POST/schedule.json HTTP/1.1" 200 62 "-" "python-requests/0.10.1"2 ..

发布时间：2021-07-16 21:45:58 python scrapy scrapyd Python

使用scrapyd一次运行多个scrapy蜘蛛

我正在将 scrapy 用于一个我想抓取多个站点(可能是数百个)的项目，并且我必须为每个站点编写一个特定的蜘蛛.我可以在部署到scrapyd的项目中使用一个蜘蛛: curl http://localhost:6800/schedule.json -d project=myproject -d spider=spider2 但是我如何一次在一个项目中安排所有蜘蛛? 非常感谢所有帮助！ ..

发布时间：2021-07-16 21:45:25 python screen-scraping scrapy scrapyd Python

scrapyd相关内容