scrapy-spider相关内容

以编程方式调用同一个蜘蛛

我有一个蜘蛛,它可以抓取所通过网站的链接.当使用不同的数据集完成执行时,我想再次启动同一个蜘蛛.如何再次重启同一个爬虫?网站通过数据库传递.我希望爬虫无限循环运行,直到所有网站都被爬取.目前我必须一直启动爬虫scrapy crawl first.有没有什么办法让爬虫启动一次,爬完所有网站就停止? 我搜索了相同的内容,并找到了在爬虫关闭/完成后处理爬虫的解决方案.但是我不知道如何以编程方式调用 ..
发布时间:2021-07-17 18:36:43 其他开发

为什么我的 Scrapy 蜘蛛只会抓取我的部分数据?

我正在尝试使用 Scrapy 为 Law & 的每一集抓取 IMDb 数据(剧集信息和演员表).订单:SVU.运行下面的代码后,我通过命令行使用“scrapy crawl svu -o svu.csv"将其导出为 CSV. 下面的代码成功拉取剧集信息,但 CSV 不包含演员表.如何修复代码以提取和导出剧集信息和演员表? 我的想法 &尝试: 我相信演员表被提取是因为它是蜘蛛运行时在 ..
发布时间:2021-07-17 18:36:34 Python

我想在项目类中添加项目类

最终的 JSON 将是: "地址": ----,“状态": - - ,年: {“第一的": - - ,“第二": {“基本的": - - ,“信息": - - ,}}, 我想像(只是示例)一样创建我的 items.py: class Item(scrapy.Item):地址 = scrapy.Field()状态 = scrapy.Field()年 = scrapy.Fiel ..
发布时间:2021-07-17 18:36:13 Python

crawlSpider 似乎不遵守规则

这是我的代码.实际上我按照“使用 Scrapy 递归抓取网页",看来我在某处包含了一个错误. 有人可以帮我找到吗?这让我发疯了,我只想要所有结果页面的所有结果.相反,它给了我第 1 页的结果. 这是我的代码: 导入scrapyfrom scrapy.selector import Selector从scrapy.spider导入CrawlSpider,规则从scrapy.http.r ..

抓取:嵌套的 url 数据抓取

我有一个网站名称 https://www.grohe.com/in在该页面中,我想获得一种浴室水龙头 https://www.grohe.com/in/25796/bathroom/bathroom-faucets/grandera/在该页面中有多个产品/相关产品.我想获取每个产品的 url 并删除数据.为此,我是这样写的... 我的 items.py 文件看起来像 from scrapy ..
发布时间:2021-07-17 18:35:49 Python

在scrapy中排队后请求消失

Scrapy 似乎没有处理所有请求就完成了.我知道这一点是因为我在请求排队之前和之后都进行了日志记录,我可以清楚地看到这一点. 我同时登录了解析和错误回调方法,但没有一个被调用来处理那些丢失的请求. 如何调试这些请求发生了什么? 解决方案 重新排队请求时需要添加dont_filter=True.尽管该请求可能与其他请求不匹配,但 Scrapy 会记住它已经发出的请求,如果您重新 ..
发布时间:2021-07-17 18:35:35 其他开发

Scrapy:从源及其链接中提取数据

编辑问题以链接到原始: 从表中的链接中抓取数据 来自链接 https://www.tdcj.state.tx.us/death_row/dr_info/trottiewillielast.html 我试图从主表中获取信息以及表中其他 2 个链接中的数据.我设法从一个链接中提取,但问题是转到另一个链接并将数据附加到一行中. from urlparse import urljoin ..
发布时间:2021-07-17 18:35:01 Python

在不使用 item.py 的情况下无法通过管道重命名下载的图像

我已经使用 python 的 scrapy 模块创建了一个脚本,用于从 Torrent 站点的多个页面下载和重命名电影图像,并将它们存储在桌面文件夹中.当将这些图像下载和存储在桌面文件夹中时,我的脚本完全相同.但是,我现在正在努力做的是即时重命名这些文件.由于我没有使用 item.py 文件,我也不希望使用,我几乎不明白 pipelines.py 文件的逻辑将如何处理重命名过程. 我的蜘蛛( ..
发布时间:2021-07-17 18:33:32 Python

为所有爬虫蜘蛛编写函数

所以我正在尝试编写可以从所有爬虫蜘蛛调用的函数.我的项目中是否有一个地方可以定义这些函数,还是需要在每个蜘蛛中导入它们? 谢谢 解决方案 你不能在 python 中隐式地导入代码(至少不能在没有 hacking 的情况下),毕竟显式优于隐式 - 所以这不是一个好主意. 然而,在scrapy中,拥有通用函数和方法的Spider基类是很常见的. 假设你有这棵树: ├── m ..
发布时间:2021-07-17 18:31:38 其他开发

Scrapy Spider 不关注链接

我正在写一个爬虫爬虫从主页上抓取今天的纽约时报文章,但由于某种原因它没有遵循任何链接.当我在 scrapy shell http://www.nytimes.com 中实例化链接提取器时,它成功地提取了带有 le.extract_links(response) 的文章网址列表,但是我无法让我的抓取命令 (scrapy crawl nyt -o out.json) 抓取除主页之外的任何内容.我有点不 ..
发布时间:2021-07-17 18:30:36 Python

Scrapy:提取链接和文本

我是 scrapy 的新手,我正在尝试抓取宜家网站网页.带有位置列表的基本页面此处. 我的 items.py 文件如下: 导入scrapy类宜家物品(scrapy.Item):名称 = scrapy.Field()链接 = scrapy.Field() 蜘蛛如下: 导入scrapy从 ikea.items 导入 IkeaItem类宜家蜘蛛(scrapy.Spider):名称 = '宜家 ..
发布时间:2021-07-17 18:30:29 Python

爬虫爬虫输出

我在运行 CrawlSpider 示例时遇到问题 在 Scrapy 文档中.它似乎爬行得很好,但我无法将其输出到 CSV 文件(或其他任何文件). 所以,我的问题是我可以使用这个: scrapy 爬取 dmoz -o items.csv 还是我必须创建一个项目管道? 更新,现在有代码!: 导入scrapy从 scrapy.contrib.spiders 导入 CrawlSpide ..
发布时间:2021-07-16 22:25:53 Python

Scrapy - 获取所有产品详细信息

我需要从此页面获取所有产品详细信息(带有绿色勾号):https://sourceforge.net/software/product/Budget-Maestro/ divs = response.xpath("//section[@class='row psp-section m-section-comm-details m-section-强调灰色']/div[@class='list-o ..
发布时间:2021-07-16 22:24:22 其他开发

Scrapy 内部 API 未处理自定义信号

我正在尝试在 Scrapy 扩展“MyExtension"中处理自定义信号“signalizers.item_extracted",该扩展在 Scrapy 启动时成功启用.这是我的代码: signalizers.py # 自定义信号item_extracted = object()item_transformed = object()类 MyExtension(对象):def __init ..
发布时间:2021-07-16 22:21:16 Python

更改运行蜘蛛的数量scrapyd

嘿,我的项目中有大约 50 个蜘蛛,我目前正在通过 scrapyd 服务器运行它们.我遇到了一个问题,我使用的一些资源被锁定,使我的蜘蛛失败或变得非常慢.我希望他们能通过某种方式告诉 scrapyd 一次只有 1 个正在运行的蜘蛛,而将其余的留在待处理的队列中.我在文档中没有看到这个配置选项.任何帮助将不胜感激! 解决方案 这可以通过 scrapyd 设置.将 max_proc 设置为 1 ..
发布时间:2021-07-16 22:21:13 Python

如何使用 selenium 和 Scrapy 从动态网站(如 Flipkart)中提取数据?

因为 Flipkart.com 在第一页上只显示 15 到 20 个结果,滚动时会显示更多结果.Scrapy 成功提取了第一页的结果,但没有提取下一页的结果.我尝试使用 Selenium,但没有成功.这是我的代码:- from scrapy.spider import Spiderfrom scrapy.selector import Selector从 flipkart.items 导入 Fl ..
发布时间:2021-07-16 22:20:43 Python

我如何选择“所有语言"?在抓取 TripAdvisor 的评论时?

我是 Python 编程和scrapy 的新手.我一直试图从 www.tripadvisor.com 上抓取一些评论.看来,对于一些酒店,有非英语语言的评论,当我使用以下代码时,我只能得到英语语言的评分: 导入scrapy从scrapy.http导入请求进口重新类 ReviewScrapeSpider(scrapy.Spider):name = 'review_scrape'allowed_do ..
发布时间:2021-07-16 22:19:40 Python