scrapy-spider相关内容

使用多个解析创建 Scrapy 项目数组

我正在使用 Scrapy 抓取列表.我的脚本首先使用 parse_node 解析列表 URL,然后使用 parse_listing 解析每个列表,对于每个列表,它使用 parse_agent.我想创建一个数组,该数组通过列表和列表的代理进行scrapy 解析,并为每个新列表进行重置. 这是我的解析脚本: def parse_node(self,response,node):产量请求('列 ..
发布时间:2021-11-18 04:19:57 其他开发

在 __init__ 上使用 scrapy 管道中的参数

我有一个scrapy pipelines.py,我想获取给定的参数.在我的 spider.py 中它完美运行: class MySpider( CrawlSpider ):def __init__(self, host='', domain_id='', *args, **kwargs):super(MySpider, self).__init__(*args, **kwargs)打印用户 ID ..
发布时间:2021-11-17 05:24:55 其他开发

使用 Selenium 抓取 iframe

我想抓取网站中的广告,但其中很多都是动态的,而且是 DOM 对象.例如在这个片段 我可以通过 Selenium 获取 iframe 标签,但我不能再进一步了.我认为这是因为 XPATH.在这种情况下,iframe 内 的 XPATH 是 /html,与主页 相同. 这是使用的代码行: element = WebDriverWait(self.driver,20).until(EC.p ..
发布时间:2021-09-22 20:29:11 其他开发

无法获得正确的 Xpath

我正在尝试使用通用 xpath 从购物小部件中提取所有产品链接和图像链接. 这是网站:http://www.stopitrightnow.com/ 这是我拥有的 xpath: xpath('.//*[@class="shopthepost-widget"]/a/@href').extract() 我原以为这会拉出所有链接,但它什么也没做. 以下是widget源码的开头供参考. ..
发布时间:2021-07-17 18:37:25 其他开发

以编程方式调用同一个蜘蛛

我有一个蜘蛛,它可以抓取所通过网站的链接.当使用不同的数据集完成执行时,我想再次启动同一个蜘蛛.如何再次重启同一个爬虫?网站通过数据库传递.我希望爬虫无限循环运行,直到所有网站都被爬取.目前我必须一直启动爬虫scrapy crawl first.有没有什么办法让爬虫启动一次,爬完所有网站就停止? 我搜索了相同的内容,并找到了在爬虫关闭/完成后处理爬虫的解决方案.但是我不知道如何以编程方式调用 ..
发布时间:2021-07-17 18:36:43 其他开发

为什么我的 Scrapy 蜘蛛只会抓取我的部分数据?

我正在尝试使用 Scrapy 为 Law & 的每一集抓取 IMDb 数据(剧集信息和演员表).订单:SVU.运行下面的代码后,我通过命令行使用“scrapy crawl svu -o svu.csv"将其导出为 CSV. 下面的代码成功拉取剧集信息,但 CSV 不包含演员表.如何修复代码以提取和导出剧集信息和演员表? 我的想法 &尝试: 我相信演员表被提取是因为它是蜘蛛运行时在 ..
发布时间:2021-07-17 18:36:34 其他开发

我想在项目类中添加项目类

最终的 JSON 将是: "地址": ----,“状态": - - ,年: {“第一的": - - ,“第二": {“基本的": - - ,“信息": - - ,}}, 我想像(只是示例)一样创建我的 items.py: class Item(scrapy.Item):地址 = scrapy.Field()状态 = scrapy.Field()年 = scrapy.Fiel ..
发布时间:2021-07-17 18:36:13 其他开发

crawlSpider 似乎不遵守规则

这是我的代码.实际上我按照“使用 Scrapy 递归抓取网页",看来我在某处包含了一个错误. 有人可以帮我找到吗?这让我发疯了,我只想要所有结果页面的所有结果.相反,它给了我第 1 页的结果. 这是我的代码: 导入scrapyfrom scrapy.selector import Selector从scrapy.spider导入CrawlSpider,规则从scrapy.http.r ..
发布时间:2021-07-17 18:36:01 其他开发

抓取:嵌套的 url 数据抓取

我有一个网站名称 https://www.grohe.com/in在该页面中,我想获得一种浴室水龙头 https://www.grohe.com/in/25796/bathroom/bathroom-faucets/grandera/在该页面中有多个产品/相关产品.我想获取每个产品的 url 并删除数据.为此,我是这样写的... 我的 items.py 文件看起来像 from scrapy ..
发布时间:2021-07-17 18:35:49 其他开发

在scrapy中排队后请求消失

Scrapy 似乎没有处理所有请求就完成了.我知道这一点是因为我在请求排队之前和之后都进行了日志记录,我可以清楚地看到这一点. 我同时登录了解析和错误回调方法,但没有一个被调用来处理那些丢失的请求. 如何调试这些请求发生了什么? 解决方案 重新排队请求时需要添加dont_filter=True.尽管该请求可能与其他请求不匹配,但 Scrapy 会记住它已经发出的请求,如果您重新 ..
发布时间:2021-07-17 18:35:35 其他开发

Scrapy:从源及其链接中提取数据

编辑问题以链接到原始: 从表中的链接中抓取数据 来自链接 https://www.tdcj.state.tx.us/death_row/dr_info/trottiewillielast.html 我试图从主表中获取信息以及表中其他 2 个链接中的数据.我设法从一个链接中提取,但问题是转到另一个链接并将数据附加到一行中. from urlparse import urljoin ..
发布时间:2021-07-17 18:35:01 其他开发

在不使用 item.py 的情况下无法通过管道重命名下载的图像

我已经使用 python 的 scrapy 模块创建了一个脚本,用于从 Torrent 站点的多个页面下载和重命名电影图像,并将它们存储在桌面文件夹中.当将这些图像下载和存储在桌面文件夹中时,我的脚本完全相同.但是,我现在正在努力做的是即时重命名这些文件.由于我没有使用 item.py 文件,我也不希望使用,我几乎不明白 pipelines.py 文件的逻辑将如何处理重命名过程. 我的蜘蛛( ..
发布时间:2021-07-17 18:33:32 其他开发

为所有爬虫蜘蛛编写函数

所以我正在尝试编写可以从所有爬虫蜘蛛调用的函数.我的项目中是否有一个地方可以定义这些函数,还是需要在每个蜘蛛中导入它们? 谢谢 解决方案 你不能在 python 中隐式地导入代码(至少不能在没有 hacking 的情况下),毕竟显式优于隐式 - 所以这不是一个好主意. 然而,在scrapy中,拥有通用函数和方法的Spider基类是很常见的. 假设你有这棵树: ├── m ..
发布时间:2021-07-17 18:31:38 其他开发

如何从scrapy蜘蛛回调中收集统计信息?

如何从蜘蛛回调中收集统计信息? 示例 class MySpider(Spider):名称=“我的蜘蛛"start_urls = ["http://example.com"]定义解析(自我,响应):stats.set_value('foo', 'bar') 不确定要import 的内容或如何使stats 可用. 解决方案 查看 来自scrapy文档的统计页面.该文档指出 Stats ..
发布时间:2021-07-17 18:30:57 其他开发

Scrapy Spider 不关注链接

我正在写一个爬虫爬虫从主页上抓取今天的纽约时报文章,但由于某种原因它没有遵循任何链接.当我在 scrapy shell http://www.nytimes.com 中实例化链接提取器时,它成功地提取了带有 le.extract_links(response) 的文章网址列表,但是我无法让我的抓取命令 (scrapy crawl nyt -o out.json) 抓取除主页之外的任何内容.我有点不 ..
发布时间:2021-07-17 18:30:36 其他开发

Scrapy:提取链接和文本

我是 scrapy 的新手,我正在尝试抓取宜家网站网页.带有位置列表的基本页面此处. 我的 items.py 文件如下: 导入scrapy类宜家物品(scrapy.Item):名称 = scrapy.Field()链接 = scrapy.Field() 蜘蛛如下: 导入scrapy从 ikea.items 导入 IkeaItem类宜家蜘蛛(scrapy.Spider):名称 = '宜家 ..
发布时间:2021-07-17 18:30:29 其他开发