scrapy-spider相关内容
我有两个 CrawlerProcesses,每个都调用不同的蜘蛛.我想将自定义设置传递给这些进程之一以将蜘蛛的输出保存到 csv,我想我可以这样做: storage_settings = {'FEED_FORMAT': 'csv', 'FEED_URI': 'foo.csv'}process = CrawlerProcess(get_project_settings())process.craw
..
我正在抓取的网站有时会返回 200,但 response.body 中没有任何文本(当我尝试使用 Selector 解析它时引发 AttributeError). 是否有一种简单的方法可以检查以确保正文包含文本,如果没有,请重试请求直到它包含?下面是一些伪代码来概述我正在尝试做的事情. def check_response(response):如果 response.body != '':
..
我一直在尝试抓取以下网站但是随着货币从左上角设置表单更改为“SAR",我尝试发送这样的scrapy请求: r = Request(url='https://www.mouda.com/en/', cookies=[{'name': 'currency','值': 'SAR','域': '.www.mouda.com','path': '/'}, {'name':'country','value'
..
我有一个运行良好的爬虫: `# -*- 编码:utf-8 -*-导入scrapy类 AllCategoriesSpider(scrapy.Spider):名称 = '维莱斯'allowed_domains = ['examplewiki.de']start_urls = ['http://www.exampleregelwiki.de/index.php/categoryA.html','htt
..
我想从网页中的多个表格中抓取内容,HTML 代码如下:
日期 1
..
蜘蛛供参考: 导入scrapy从scrapy.spiders 导入蜘蛛from scrapy.selector import Selector从 script.items 导入 ScriptItem类RunSpider(scrapy.Spider):名称=“运行"allowed_domains = ["stopitrightnow.com"]start_urls = ('http://www.s
..
我刚刚开始使用scrapy.我在scrapy中登录时遇到了一些问题.我正在尝试 www.instacart.com 网站上的刮擦项目.但我在登录时遇到了问题. 以下是代码 导入scrapy从 scrapy.loader 导入 ItemLoader从 project.items 导入 ProjectItem从scrapy.http导入请求从scrapy导入optional_featureso
..
我正在尝试使用 scrapy 抓取包含多页信息的网站. 我的代码是: from scrapy.spider import BaseSpiderfrom scrapy.selector import Selector从 tcgplayer1.items 导入 Tcgplayer1Item类 MySpider(BaseSpider):名称 = "tcg"allowed_domains = ["
..
我想获取不同域下的网页,这意味着我必须在“scrapy crawl myspider"命令下使用不同的蜘蛛.但是,由于网页的内容不同,我必须使用不同的管道逻辑将数据放入数据库.但是对于每个蜘蛛,它们都必须通过 settings.py 中定义的所有管道.是否有其他优雅的方法可以为每个蜘蛛使用单独的管道? 解决方案 ITEM_PIPELINES 设置是在引擎启动期间为项目中的所有蜘蛛全局定义的
..
我们有一个非常标准的 Scrapy 项目(Scrapy 0.24). 我想捕获特定的 HTTP 响应代码,例如 200、500、502、503、504 等. 类似的东西: class Spider(...):定义解析(...):处理 HTTP 200def parse_500(...):处理 HTTP 500 错误def parse_502(...):处理 HTTP 502 错误..
..
所以我正在尝试使用 CrawlSpider 并了解 Scrapy 文档: 导入scrapy从 scrapy.spider 导入 CrawlSpider,规则从scrapy.linkextractors 导入LinkExtractor类 MySpider(CrawlSpider):名称 = 'example.com'allowed_domains = ['example.com']start_ur
..
我向我的爬虫蜘蛛添加了 restrict_xpaths 规则,现在它立即失败了: 2015-03-16 15:46:53+0000 [tsr] ERROR: Spider 错误处理回溯(最近一次调用最后一次):文件“/System/Library/Frameworks/Pyth
..
这是我关于堆栈溢出的第一个问题.最近我想使用linked-in-scraper,所以我下载并指示“scrapy crawl linkedin.com"并得到以下错误信息.供您参考,我使用 anaconda 2.3.0 和 python 2.7.11.所有相关的包,包括scrapy和6个,在执行程序之前都通过pip更新. 回溯(最近一次调用最后一次): 中的文件“/Users/byeongsuyu
..
我正在使用scrapy来抓取我拥有的旧网站,我使用下面的代码作为我的蜘蛛.我不介意为每个网页输出文件,或者包含其中所有内容的数据库.但是我确实需要能够让蜘蛛爬行整个事情,而我不必输入我目前必须做的每个网址 导入scrapy类 DmozSpider(scrapy.Spider):名称 = "dmoz"allowed_domains = ["www.example.com"]start_urls =
..
我对scrapy很陌生,我知道项目用于填充抓取的数据,但我无法理解项目和项目加载器之间的区别.我试图阅读一些示例代码,他们使用项目加载器而不是项目来存储,我不明白为什么.Scrapy 文档对我来说还不够清楚.任何人都可以就何时使用物品加载器以及它们为物品提供哪些附加设施提供一个简单的解释(以示例为佳)? 解决方案 我真的很喜欢文档中的官方解释: Item Loaders 提供了一种方
..
我有问题.我需要停止一个函数的执行一段时间,但不能停止整体解析的实现.也就是说,我需要一个非阻塞的暂停. 看起来像: class ScrapySpider(蜘蛛):名称 = 'live_function'def start_requests(self):yield Request('some url', callback=self.non_stop_function)def non_sto
..
在我的 Scrapy 蜘蛛中,我重写了 start_requests() 方法,以便从数据库中检索一些额外的 url,这些 URL 代表可能在爬行中遗漏的项目(孤立项目).这应该在爬行过程结束时发生.类似(伪代码): def start_requests(self):对于 self.start_urls 中的 url:产量请求(网址,dont_filter=True)# 尝试抓取孤立的项目db
..
我使用python的scrapy模块创建了一个脚本,用于从torrent站点下载和重命名电影图像,并将它们存储在scrapy项目中的文件夹中.当我按原样运行我的脚本时,我发现它可以无误地下载该文件夹文件夹中的图像. 此时脚本正在使用 request.url 到 pipelines.py 中方便的部分重命名这些图像. 我如何通过 pipelines.py 使用变量 movie 定义在 g
..
我有一个项目,我需要 html 代码中的 get 脚本. (功能() {.../更多代码Level.grade = "2";Level.level = "1";Level.max_line = "5";Level.cozum = 'adım 12\ndön sağ\nadım 13\ndön sol\nadım 11';.../更多代码 我怎么只得到"adım 12\ndön sağ\nad
..
我写了一个蜘蛛来抓取https://tecnoblog.net/categoria/review/但是当我让蜘蛛爬行时,出现了一个错误: 2015-05-19 15:13:20+0100 [scrapy] INFO:Scrapy 0.24.5 开始(机器人:评论)2015-05-19 15:13:20+0100 [scrapy] 信息:可用的可选功能:ssl、http112015-05-19 1
..