scrapy相关内容

Scrapy 安装(需要 Microsoft Visual C++ 14.0)

我已经尝试通过命令pip install scrapy安装scrapy好几天了. 下载要求后,我收到此错误代码. 错误:需要 Microsoft Visual C++ 14.0.使用“Microsoft Visual C++ 构建工具"获取它:https://visualstudio.microsoft.com/downloads/---------------------------- ..
发布时间:2022-01-04 21:03:34 Python

带有动态验证码的 Scrapy

我正在尝试破解网站表单中的 captcha,但此验证码是动态的,它没有 URL 而是具有类似这样的内容 src="captcha?accion=image" 这里最好的选择是什么?我读过类似使用中间件之类的东西.我也知道它可以用 Selenium 或 Splash 或其他浏览器驱动程序(截图)来完成,但我想用 Scrapy 来完成,当然如果可能的话. 解决方案 这里有一个完整的解决方案 ..
发布时间:2022-01-04 21:03:25 Python

无法导入 Scrapy 的设置模块或其 scrapy.cfg

这是一篇很长的文章,但经过大量研究后,我找不到解决方案.我在 OSX 10.8 上有一个混合的 Django 1.4.1/Scrapy 0.14.4 项目,我使用 Django 项目的 manage.py 命令控制 Scrapy,如此处.例如,调用 python manage.py scrapy 爬取example_spider 工作没有问题.现在我要设置 scrapyd 网络服务来部署我的蜘 ..
发布时间:2022-01-04 21:02:32 Python

Scrapy:谷歌抓取不起作用

当我尝试在 Google 上抓取搜索结果时,Scrapy 只会生成 Google 主页:http://pastebin.com/FUbvbhN4 这是我的蜘蛛: 导入scrapy类 GoogleFinanceSpider(scrapy.Spider):名称 = "谷歌"start_urls = ['http://www.google.com/#q=finance.google.com:+3 ..
发布时间:2022-01-04 21:02:21 其他开发

scrapy xpath 选择器在 h1-h6 标签上的行为

为什么以下两个代码片段给出了不同的输出?它们之间唯一的区别是第一种情况下的 h1 标签在第二种情况下被替换为 h 标签.这是因为 h1 标签在 html 中有特殊的“意义"吗?我尝试使用 h1 到 h6 并且它们都将 [] 作为输出,而使用 h7 它开始将 [u'xxx'] 作为输出. from scrapy import Selector # scrapy version: 1.2.2text ..
发布时间:2022-01-04 21:02:14 前端开发

Python逻辑操作

我对 python 很陌生,我正在使用 Scrapy 库进行网络抓取项目.我没有使用内置域限制,因为我想检查域外页面的任何链接是否已失效.但是,我仍然希望将域内的页面与域外的页面区别对待,并尝试在解析响应之前手动确定站点是否在域内. 响应网址: http://www.siteSection1.domainName.com If 语句: if 'domainName.com' and ( ..
发布时间:2022-01-04 21:02:07 Python

如何自动检索 URL AJAX 调用?

目标是编写一个爬虫程序,使其能够: 1) 检索此页面表中链接的 URL:http://cordis.europa.eu/fp7/security/projects_en.html 2) 按照来自所有这些 URL 的 AJAX 调用找出包含我想要抓取的数据的最终(“AJAX")URL 3) 抓取由 AJAX URL 标识的最终页面. 到目前为止,我已经在 Scrapy 下写了 ..
发布时间:2022-01-04 21:01:44 前端开发

在 500 个请求后添加延迟

我有一个起始 2000 个网址的列表,我正在使用: DOWNLOAD_DELAY = 0.25 为了控制请求的速度,但我也想在 n 个请求后添加更大的延迟.例如,我希望每个请求延迟 0.25 秒,每 500 个请求延迟 100 秒. 编辑: 示例代码: 导入操作系统从 os.path 导入加入导入scrapy导入时间date = time.strftime("%d/%m/%Y") ..
发布时间:2022-01-04 21:01:37 Python

如何以正确的格式将抓取的数据导出到 csv 文件?

我根据@paultrmbrth 的此建议对我的代码进行了改进.我需要的是从类似于 this 的页面中抓取数据 和 这个 我想要csv 输出如下图所示. 但是我的代码的 csv 输出有点乱,像这样: 我有两个问题,无论如何,csv输出可以像第一张图片一样吗?我的第二个问题是,我也希望电影标题也被废弃,请给我一个提示或提供给我一个代码,我可以用它来抓取电影标题和内容. 更新 这个问 ..
发布时间:2022-01-04 21:01:20 Python

如何访问 Scrapy 项目管道中的所有抓取项目?

我有一个项目,它有一个排名字段,必须通过分析其他项目类来构建.我不想使用数据库或其他后端来存储它们 - 我只需要访问所有当前抓取的项目并对它们执行一些 itertools 魔法 - 在蜘蛛完成后但在我们导出数据之前我怎么能做到这一点(所以排名字段获胜不是空的)? 解决方案 我认为信号可能会有所帮助.我在这里做了类似的事情 https://github.com/dm03514/Crai ..
发布时间:2022-01-04 21:00:49 Python

如何重新启动scrapyd守护进程?

我已经完全按照 文档.现在我已经更改了 /etc/scrapyd/conf.d/000-default 中的一些配置变量. 我如何让scrapyd识别这些变化?我认为这涉及重新启动守护程序,但我找不到有关如何执行此操作的任何好的指导. 一个复杂的因素:我有一堆爬网在排队,我不想丢失它们.我认为scrapy知道如何优雅地退出和恢复它们,但是这个功能没有得到很好的记录.有什么指导吗? ..
发布时间:2022-01-04 21:00:40 Python

用 Scrapy 抓取 ajax 页面?

我正在使用 Scrapy 从这个页面抓取数据 https://www.bricoetloisirs.ch/magasins/gardena 产品列表动态显示.查找 url 以获取产品 https://www.bricoetloisirs.ch/coop/ajax/nextPage/(cpgnum=1&layout=7.01-14_180_69_164_182&ui=2&;care ..
发布时间:2022-01-04 21:00:30 前端开发

Scrapy - 设置延迟重试中间件

我正在使用 Scrapy-splash 并且内存有问题.我可以清楚地看到 docker python3 使用的内存逐渐增加,直到 PC 冻结. 无法弄清楚为什么它会这样,因为我有 CONCURRENT_REQUESTS=3 并且没有办法 3 HTML 消耗 10GB RAM. 因此有一种变通方法可以将 maxrss 设置为某个合理的值.当 RAM 使用率具有此值时,将重新启动 dock ..
发布时间:2022-01-04 21:00:22 Python

带有scrapy python的.net框架

是否可以将 .NET 框架与 Python scrapy 框架一起使用来从不同站点抓取数据?我正在做我最后一年的项目,我想使用 C# 作为前端语言和 Python 来抓取数据. 解决方案 我不认为这是可能的,因为 Scrapy 使用了扭曲的网络引擎 不能在 IronPython 上运行 或者,您可以使用 C# 通过命令行启动蜘蛛/爬虫,然后使用 JSON API ..
发布时间:2022-01-04 20:59:39 C#/.NET

如何使用带有自定义日志处理程序的 scrapy.log 模块?

我一直在从事一个 Scrapy 项目,到目前为止一切都运行良好.但是,我对 Scrapy 的日志配置可能性并不满意.目前,我已经在我的项目的 settings.py 中设置了 LOG_FILE = 'my_spider.log'.当我在命令行上执行 scrapy crawl my_spider 时,它会为整个抓取过程创建一个大日志文件.这对我来说是不可行的. 如何将 Python 的自定义日 ..
发布时间:2022-01-04 20:59:27 Python

从 Flask 路线开始scrapy

我想构建一个爬虫,它获取要抓取的网页的 URL 并将结果返回给网页.现在我从终端开始scrapy并将响应存储在一个文件中.当某些输入发布到 Flask 时,如何启动爬虫、处理并返回响应? 解决方案 您需要在 Flask 应用程序中创建一个 CrawlerProcess 并以编程方式运行爬网.请参阅文档. 导入scrapy从 scrapy.crawler 导入 CrawlerProcess ..
发布时间:2022-01-04 20:59:08 Python