scrapy-spider相关内容

即使在收到 200 状态代码时重试 Scrapy 请求

我正在抓取的网站有时会返回 200,但 response.body 中没有任何文本(当我尝试使用 Selector 解析它时引发 AttributeError). 是否有一种简单的方法可以检查以确保正文包含文本,如果没有,请重试请求直到它包含?下面是一些伪代码来概述我正在尝试做的事情. def check_response(response):如果 response.body != '': ..
发布时间:2021-07-16 22:02:36 Python

用scrapy抓取多个页面

我正在尝试使用 scrapy 抓取包含多页信息的网站. 我的代码是: from scrapy.spider import BaseSpiderfrom scrapy.selector import Selector从 tcgplayer1.items 导入 Tcgplayer1Item类 MySpider(BaseSpider):名称 = "tcg"allowed_domains = [" ..
发布时间:2021-07-16 22:00:46 Python

有没有什么方法可以为每个蜘蛛使用单独的scrapy管道?

我想获取不同域下的网页,这意味着我必须在“scrapy crawl myspider"命令下使用不同的蜘蛛.但是,由于网页的内容不同,我必须使用不同的管道逻辑将数据放入数据库.但是对于每个蜘蛛,它们都必须通过 settings.py 中定义的所有管道.是否有其他优雅的方法可以为每个蜘蛛使用单独的管道? 解决方案 ITEM_PIPELINES 设置是在引擎启动期间为项目中的所有蜘蛛全局定义的 ..
发布时间:2021-07-16 21:59:51 Python

Scrapy: AttributeError: 'list' 对象没有属性 'iteritems'

这是我关于堆栈溢出的第一个问题.最近我想使用linked-in-scraper,所以我下载并指示“scrapy crawl linkedin.com"并得到以下错误信息.供您参考,我使用 anaconda 2.3.0 和 python 2.7.11.所有相关的包,包括scrapy和6个,在执行程序之前都通过pip更新. 回溯(最近一次调用最后一次): 中的文件“/Users/byeongsuyu ..
发布时间:2021-07-16 21:58:35 Python

让scrapy蜘蛛抓取整个网站

我正在使用scrapy来抓取我拥有的旧网站,我使用下面的代码作为我的蜘蛛.我不介意为每个网页输出文件,或者包含其中所有内容的数据库.但是我确实需要能够让蜘蛛爬行整个事情,而我不必输入我目前必须做的每个网址 导入scrapy类 DmozSpider(scrapy.Spider):名称 = "dmoz"allowed_domains = ["www.example.com"]start_urls = ..
发布时间:2021-07-16 21:58:20 Python

在scrapy中项目与项目加载器

我对scrapy很陌生,我知道项目用于填充抓取的数据,但我无法理解项目和项目加载器之间的区别.我试图阅读一些示例代码,他们使用项目加载器而不是项目来存储,我不明白为什么.Scrapy 文档对我来说还不够清楚.任何人都可以就何时使用物品加载器以及它们为物品提供哪些附加设施提供一个简单的解释(以示例为佳)? 解决方案 我真的很喜欢文档中的官方解释: Item Loaders 提供了一种方 ..
发布时间:2021-07-16 21:58:05 Python

Scrapy:非阻塞暂停

我有问题.我需要停止一个函数的执行一段时间,但不能停止整体解析的实现.也就是说,我需要一个非阻塞的暂停. 看起来像: class ScrapySpider(蜘蛛):名称 = 'live_function'def start_requests(self):yield Request('some url', callback=self.non_stop_function)def non_sto ..
发布时间:2021-07-16 21:58:03 Python

Scrapy spider_idle 信号 - 需要添加带有解析项回调的请求

在我的 Scrapy 蜘蛛中,我重写了 start_requests() 方法,以便从数据库中检索一些额外的 url,这些 URL 代表可能在爬行中遗漏的项目(孤立项目).这应该在爬行过程结束时发生.类似(伪代码): def start_requests(self):对于 self.start_urls 中的 url:产量请求(网址,dont_filter=True)# 尝试抓取孤立的项目db ..
发布时间:2021-07-16 21:57:08 其他开发

无法通过管道以自定义方式重命名下载的图像

我使用python的scrapy模块创建了一个脚本,用于从torrent站点下载和重命名电影图像,并将它们存储在scrapy项目中的文件夹中.当我按原样运行我的脚本时,我发现它可以无误地下载该文件夹文件夹中的图像. 此时脚本正在使用 request.url 到 pipelines.py 中方便的部分重命名这些图像. 我如何通过 pipelines.py 使用变量 movie 定义在 g ..
发布时间:2021-07-16 21:57:02 Python

Python Scrapy 获取 HTML <script>标签

我有一个项目,我需要 html 代码中的 get 脚本. (功能() {.../更多代码Level.grade = "2";Level.level = "1";Level.max_line = "5";Level.cozum = 'adım 12\ndön sağ\nadım 13\ndön sol\nadım 11';.../更多代码 我怎么只得到"adım 12\ndön sağ\nad ..
发布时间:2021-07-16 21:55:57 Python