scrapy-spider 第5页 - IT屋-程序员软件开发技术分享社区

如何在scrapy中通过CrawlerProcess传递自定义设置?

我有两个 CrawlerProcesses，每个都调用不同的蜘蛛.我想将自定义设置传递给这些进程之一以将蜘蛛的输出保存到 csv，我想我可以这样做: storage_settings = {'FEED_FORMAT': 'csv', 'FEED_URI': 'foo.csv'}process = CrawlerProcess(get_project_settings())process.craw ..

即使在收到 200 状态代码时重试 Scrapy 请求

我正在抓取的网站有时会返回 200，但 response.body 中没有任何文本(当我尝试使用 Selector 解析它时引发 AttributeError). 是否有一种简单的方法可以检查以确保正文包含文本，如果没有，请重试请求直到它包含?下面是一些伪代码来概述我正在尝试做的事情. def check_response(response):如果 response.body != '': ..

发布时间：2021-07-16 22:02:36 python web-scraping scrapy scrapy-spider Python

Scrapy FormRequest ，尝试发送带有货币更改表单数据的发布请求(FormRequest)

我一直在尝试抓取以下网站但是随着货币从左上角设置表单更改为“SAR"，我尝试发送这样的scrapy请求: r = Request(url='https://www.mouda.com/en/', cookies=[{'name': 'currency','值': 'SAR','域': '.www.mouda.com','path': '/'}, {'name':'country','value' ..

发布时间：2021-07-16 22:01:52 python web-scraping scrapy scrapy-spider scrapy-shell Python

scrapy - 每个 starurl 的单独输出文件

我有一个运行良好的爬虫: `# -*- 编码:utf-8 -*-导入scrapy类 AllCategoriesSpider(scrapy.Spider):名称 = '维莱斯'allowed_domains = ['examplewiki.de']start_urls = ['http://www.exampleregelwiki.de/index.php/categoryA.html','htt ..

发布时间：2021-07-16 22:01:50 python python-3.x web-scraping scrapy scrapy-spider Python

如何从网页中的多个表格中抓取内容

我想从网页中的多个表格中抓取内容，HTML 代码如下: 日期 1 ..

发布时间：2021-07-16 22:01:32 python web-scraping scrapy scrapy-spider Python

Scrapy 如何处理 Javascript

蜘蛛供参考: 导入scrapy从scrapy.spiders 导入蜘蛛from scrapy.selector import Selector从 script.items 导入 ScriptItem类RunSpider(scrapy.Spider):名称=“运行"allowed_domains = ["stopitrightnow.com"]start_urls = ('http://www.s ..

发布时间：2021-07-16 22:01:23 javascript selenium web-scraping scrapy scrapy-spider 前端开发

Python scrapy - 登录身份验证问题

我刚刚开始使用scrapy.我在scrapy中登录时遇到了一些问题.我正在尝试 www.instacart.com 网站上的刮擦项目.但我在登录时遇到了问题. 以下是代码导入scrapy从 scrapy.loader 导入 ItemLoader从 project.items 导入 ProjectItem从scrapy.http导入请求从scrapy导入optional_featureso ..

发布时间：2021-07-16 22:00:58 python web-scraping scrapy web-crawler scrapy-spider Python

用scrapy抓取多个页面

我正在尝试使用 scrapy 抓取包含多页信息的网站. 我的代码是: from scrapy.spider import BaseSpiderfrom scrapy.selector import Selector从 tcgplayer1.items 导入 Tcgplayer1Item类 MySpider(BaseSpider):名称 = "tcg"allowed_domains = [" ..

发布时间：2021-07-16 22:00:46 python web-scraping scrapy scrapy-spider Python

有没有什么方法可以为每个蜘蛛使用单独的scrapy管道?

我想获取不同域下的网页，这意味着我必须在“scrapy crawl myspider"命令下使用不同的蜘蛛.但是，由于网页的内容不同，我必须使用不同的管道逻辑将数据放入数据库.但是对于每个蜘蛛，它们都必须通过 settings.py 中定义的所有管道.是否有其他优雅的方法可以为每个蜘蛛使用单独的管道? 解决方案 ITEM_PIPELINES 设置是在引擎启动期间为项目中的所有蜘蛛全局定义的 ..

发布时间：2021-07-16 21:59:51 python web-scraping scrapy scrapy-spider Python

Scrapy:使用特定的 HTTP 服务器代码捕获响应

我们有一个非常标准的 Scrapy 项目(Scrapy 0.24). 我想捕获特定的 HTTP 响应代码，例如 200、500、502、503、504 等. 类似的东西: class Spider(...):定义解析(...):处理 HTTP 200def parse_500(...):处理 HTTP 500 错误def parse_502(...):处理 HTTP 502 错误.. ..

发布时间：2021-07-16 21:59:30 python web-scraping scrapy scrapy-spider Python

Scrapy - 了解 CrawlSpider 和 LinkExtractor

所以我正在尝试使用 CrawlSpider 并了解 Scrapy 文档: 导入scrapy从 scrapy.spider 导入 CrawlSpider，规则从scrapy.linkextractors 导入LinkExtractor类 MySpider(CrawlSpider):名称 = 'example.com'allowed_domains = ['example.com']start_ur ..

发布时间：2021-07-16 21:58:56 python scrapy web-crawler scrapy-spider Python

Scrapy:'str' 对象没有属性 'iter'

我向我的爬虫蜘蛛添加了 restrict_xpaths 规则，现在它立即失败了: 2015-03-16 15:46:53+0000 [tsr] ERROR: Spider 错误处理回溯(最近一次调用最后一次):文件“/System/Library/Frameworks/Pyth ..

发布时间：2021-07-16 21:58:41 python scrapy scrapy-spider Python

Scrapy: AttributeError: 'list' 对象没有属性 'iteritems'

这是我关于堆栈溢出的第一个问题.最近我想使用linked-in-scraper，所以我下载并指示“scrapy crawl linkedin.com"并得到以下错误信息.供您参考，我使用 anaconda 2.3.0 和 python 2.7.11.所有相关的包，包括scrapy和6个，在执行程序之前都通过pip更新. 回溯(最近一次调用最后一次): 中的文件“/Users/byeongsuyu ..

发布时间：2021-07-16 21:58:35 python scrapy-spider six Python

让scrapy蜘蛛抓取整个网站

我正在使用scrapy来抓取我拥有的旧网站，我使用下面的代码作为我的蜘蛛.我不介意为每个网页输出文件，或者包含其中所有内容的数据库.但是我确实需要能够让蜘蛛爬行整个事情，而我不必输入我目前必须做的每个网址导入scrapy类 DmozSpider(scrapy.Spider):名称 = "dmoz"allowed_domains = ["www.example.com"]start_urls = ..

发布时间：2021-07-16 21:58:20 python scrapy scrapy-spider Python

在scrapy中项目与项目加载器

我对scrapy很陌生，我知道项目用于填充抓取的数据，但我无法理解项目和项目加载器之间的区别.我试图阅读一些示例代码，他们使用项目加载器而不是项目来存储，我不明白为什么.Scrapy 文档对我来说还不够清楚.任何人都可以就何时使用物品加载器以及它们为物品提供哪些附加设施提供一个简单的解释(以示例为佳)? 解决方案我真的很喜欢文档中的官方解释: Item Loaders 提供了一种方 ..

发布时间：2021-07-16 21:58:05 python web-scraping scrapy scrapy-spider Python

Scrapy:非阻塞暂停

我有问题.我需要停止一个函数的执行一段时间，但不能停止整体解析的实现.也就是说，我需要一个非阻塞的暂停. 看起来像: class ScrapySpider(蜘蛛):名称 = 'live_function'def start_requests(self):yield Request('some url', callback=self.non_stop_function)def non_sto ..

发布时间：2021-07-16 21:58:03 python scrapy scrapy-spider Python

Scrapy spider_idle 信号 - 需要添加带有解析项回调的请求

在我的 Scrapy 蜘蛛中，我重写了 start_requests() 方法，以便从数据库中检索一些额外的 url，这些 URL 代表可能在爬行中遗漏的项目(孤立项目).这应该在爬行过程结束时发生.类似(伪代码): def start_requests(self):对于 self.start_urls 中的 url:产量请求(网址，dont_filter=True)# 尝试抓取孤立的项目db ..

发布时间：2021-07-16 21:57:08 scrapy scrapy-spider scrapy-signal 其他开发

无法通过管道以自定义方式重命名下载的图像

我使用python的scrapy模块创建了一个脚本，用于从torrent站点下载和重命名电影图像，并将它们存储在scrapy项目中的文件夹中.当我按原样运行我的脚本时，我发现它可以无误地下载该文件夹文件夹中的图像. 此时脚本正在使用 request.url 到 pipelines.py 中方便的部分重命名这些图像. 我如何通过 pipelines.py 使用变量 movie 定义在 g ..

发布时间：2021-07-16 21:57:02 python web-scraping scrapy scrapy-spider Python

Python Scrapy 获取 HTML <script>标签

我有一个项目，我需要 html 代码中的 get 脚本. (功能() {.../更多代码Level.grade = "2";Level.level = "1";Level.max_line = "5";Level.cozum = 'adım 12\ndön sağ\nadım 13\ndön sol\nadım 11';.../更多代码我怎么只得到"adım 12\ndön sağ\nad ..

发布时间：2021-07-16 21:55:57 python scrapy scrapy-spider Python

Scrapy 错误:下载错误 - 无法打开 CONNECT 隧道

我写了一个蜘蛛来抓取https://tecnoblog.net/categoria/review/但是当我让蜘蛛爬行时，出现了一个错误: 2015-05-19 15:13:20+0100 [scrapy] INFO:Scrapy 0.24.5 开始(机器人:评论)2015-05-19 15:13:20+0100 [scrapy] 信息:可用的可选功能:ssl、http112015-05-19 1 ..

发布时间：2021-07-16 21:55:18 scrapy scrapy-spider 其他开发

scrapy-spider相关内容