scrapy-spider 第2页 - IT屋-程序员软件开发技术分享社区

以编程方式调用同一个蜘蛛

我有一个蜘蛛，它可以抓取所通过网站的链接.当使用不同的数据集完成执行时，我想再次启动同一个蜘蛛.如何再次重启同一个爬虫?网站通过数据库传递.我希望爬虫无限循环运行，直到所有网站都被爬取.目前我必须一直启动爬虫scrapy crawl first.有没有什么办法让爬虫启动一次，爬完所有网站就停止? 我搜索了相同的内容，并找到了在爬虫关闭/完成后处理爬虫的解决方案.但是我不知道如何以编程方式调用 ..

发布时间：2021-07-17 18:36:43 web-scraping scrapy scrapy-spider 其他开发

使用 Scrapy 解析杂散文本

知道如何从这段标记中提取“TEXT TO GRAB": LINK>要抓取的文本解决方案这不是一个理想的解决方案 ..

发布时间：2021-07-17 18:36:40 python web-scraping scrapy scrapy-spider Python

为什么我的 Scrapy 蜘蛛只会抓取我的部分数据?

我正在尝试使用 Scrapy 为 Law & 的每一集抓取 IMDb 数据(剧集信息和演员表).订单:SVU.运行下面的代码后，我通过命令行使用“scrapy crawl svu -o svu.csv"将其导出为 CSV. 下面的代码成功拉取剧集信息，但 CSV 不包含演员表.如何修复代码以提取和导出剧集信息和演员表? 我的想法 &尝试: 我相信演员表被提取是因为它是蜘蛛运行时在 ..

发布时间：2021-07-17 18:36:34 python web-scraping scrapy scrapy-spider Python

我想在项目类中添加项目类

最终的 JSON 将是: "地址": ----,“状态": - - ，年: {“第一的": - - ，“第二": {“基本的": - - ，“信息": - - ，}}, 我想像(只是示例)一样创建我的 items.py: class Item(scrapy.Item):地址 = scrapy.Field()状态 = scrapy.Field()年 = scrapy.Fiel ..

发布时间：2021-07-17 18:36:13 python scrapy scrapy-spider Python

crawlSpider 似乎不遵守规则

这是我的代码.实际上我按照“使用 Scrapy 递归抓取网页"，看来我在某处包含了一个错误. 有人可以帮我找到吗?这让我发疯了，我只想要所有结果页面的所有结果.相反，它给了我第 1 页的结果. 这是我的代码: 导入scrapyfrom scrapy.selector import Selector从scrapy.spider导入CrawlSpider，规则从scrapy.http.r ..

发布时间：2021-07-17 18:36:01 python-2.7 web-scraping web-crawler scrapy scrapy-spider 其他开发

抓取:嵌套的 url 数据抓取

我有一个网站名称 https://www.grohe.com/in在该页面中，我想获得一种浴室水龙头 https://www.grohe.com/in/25796/bathroom/bathroom-faucets/grandera/在该页面中有多个产品/相关产品.我想获取每个产品的 url 并删除数据.为此，我是这样写的... 我的 items.py 文件看起来像 from scrapy ..

发布时间：2021-07-17 18:35:49 python scrapy scrapy-spider Python

在scrapy中排队后请求消失

Scrapy 似乎没有处理所有请求就完成了.我知道这一点是因为我在请求排队之前和之后都进行了日志记录，我可以清楚地看到这一点. 我同时登录了解析和错误回调方法，但没有一个被调用来处理那些丢失的请求. 如何调试这些请求发生了什么? 解决方案重新排队请求时需要添加dont_filter=True.尽管该请求可能与其他请求不匹配，但 Scrapy 会记住它已经发出的请求，如果您重新 ..

发布时间：2021-07-17 18:35:35 scrapy python-3.5 scrapy-spider 其他开发

Scrapy:从源及其链接中提取数据

编辑问题以链接到原始: 从表中的链接中抓取数据来自链接 https://www.tdcj.state.tx.us/death_row/dr_info/trottiewillielast.html 我试图从主表中获取信息以及表中其他 2 个链接中的数据.我设法从一个链接中提取，但问题是转到另一个链接并将数据附加到一行中. from urlparse import urljoin ..

发布时间：2021-07-17 18:35:01 python xpath scrapy scrapy-spider Python

在不使用 item.py 的情况下无法通过管道重命名下载的图像

我已经使用 python 的 scrapy 模块创建了一个脚本，用于从 Torrent 站点的多个页面下载和重命名电影图像，并将它们存储在桌面文件夹中.当将这些图像下载和存储在桌面文件夹中时，我的脚本完全相同.但是，我现在正在努力做的是即时重命名这些文件.由于我没有使用 item.py 文件，我也不希望使用，我几乎不明白 pipelines.py 文件的逻辑将如何处理重命名过程. 我的蜘蛛( ..

发布时间：2021-07-17 18:33:32 python python-3.x web-scraping scrapy scrapy-spider Python

为所有爬虫蜘蛛编写函数

所以我正在尝试编写可以从所有爬虫蜘蛛调用的函数.我的项目中是否有一个地方可以定义这些函数，还是需要在每个蜘蛛中导入它们? 谢谢解决方案你不能在 python 中隐式地导入代码(至少不能在没有 hacking 的情况下)，毕竟显式优于隐式 - 所以这不是一个好主意. 然而，在scrapy中，拥有通用函数和方法的Spider基类是很常见的. 假设你有这棵树: ├── m ..

发布时间：2021-07-17 18:31:38 scrapy scrapy-spider 其他开发

Scrapy Spider 不关注链接

我正在写一个爬虫爬虫从主页上抓取今天的纽约时报文章，但由于某种原因它没有遵循任何链接.当我在 scrapy shell http://www.nytimes.com 中实例化链接提取器时，它成功地提取了带有 le.extract_links(response) 的文章网址列表，但是我无法让我的抓取命令 (scrapy crawl nyt -o out.json) 抓取除主页之外的任何内容.我有点不 ..

发布时间：2021-07-17 18:30:36 python scrapy scrapy-spider Python

使用 Scrapy 抓取本地 XML 文件 - 起始 URL 本地文件地址

我想用scrapy抓取我在下载文件夹中找到的本地xml文件，使用xpath提取相关信息. 使用scrapy 介绍作为指南 2016-01-24 12:38:53 [scrapy] 调试:重试 (失败 2 次):[Errno 2] 没有那个文件或目录:'/sayth/Downloads/20 ..

发布时间：2021-07-17 18:30:33 python xml xpath scrapy scrapy-spider Python

Scrapy:提取链接和文本

我是 scrapy 的新手，我正在尝试抓取宜家网站网页.带有位置列表的基本页面此处. 我的 items.py 文件如下: 导入scrapy类宜家物品(scrapy.Item):名称 = scrapy.Field()链接 = scrapy.Field() 蜘蛛如下: 导入scrapy从 ikea.items 导入 IkeaItem类宜家蜘蛛(scrapy.Spider):名称 = '宜家 ..

发布时间：2021-07-17 18:30:29 python web-scraping scrapy scrapy-spider Python

爬虫爬虫输出

我在运行 CrawlSpider 示例时遇到问题在 Scrapy 文档中.它似乎爬行得很好，但我无法将其输出到 CSV 文件(或其他任何文件). 所以，我的问题是我可以使用这个: scrapy 爬取 dmoz -o items.csv 还是我必须创建一个项目管道? 更新，现在有代码！: 导入scrapy从 scrapy.contrib.spiders 导入 CrawlSpide ..

发布时间：2021-07-16 22:25:53 python scrapy scrapy-spider Python

Scrapy - 获取所有产品详细信息

我需要从此页面获取所有产品详细信息(带有绿色勾号):https://sourceforge.net/software/product/Budget-Maestro/ divs = response.xpath("//section[@class='row psp-section m-section-comm-details m-section-强调灰色']/div[@class='list-o ..

发布时间：2021-07-16 22:24:22 scrapy scrapy-spider 其他开发

Scrapy 内部 API 未处理自定义信号

我正在尝试在 Scrapy 扩展“MyExtension"中处理自定义信号“signalizers.item_extracted"，该扩展在 Scrapy 启动时成功启用.这是我的代码: signalizers.py # 自定义信号item_extracted = object()item_transformed = object()类 MyExtension(对象):def __init ..

发布时间：2021-07-16 22:21:16 python scrapy signals scrapy-spider Python

更改运行蜘蛛的数量scrapyd

嘿，我的项目中有大约 50 个蜘蛛，我目前正在通过 scrapyd 服务器运行它们.我遇到了一个问题，我使用的一些资源被锁定，使我的蜘蛛失败或变得非常慢.我希望他们能通过某种方式告诉 scrapyd 一次只有 1 个正在运行的蜘蛛，而将其余的留在待处理的队列中.我在文档中没有看到这个配置选项.任何帮助将不胜感激！解决方案这可以通过 scrapyd 设置.将 max_proc 设置为 1 ..

发布时间：2021-07-16 22:21:13 python python-2.7 scrapy scrapyd scrapy-spider Python

Scrapy 需要抓取网站上的所有下一个链接并移动到下一页

我需要我的scrapy才能进入下一页，请给我正确的规则代码，怎么写?? from scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.selector import Selector从 scrapy.contrib.linkextractors.sgml 导入 SgmlLinkExtractor从 delh.items 导入 De ..

发布时间：2021-07-16 22:20:49 python web-scraping scrapy web-crawler scrapy-spider Python

如何使用 selenium 和 Scrapy 从动态网站(如 Flipkart)中提取数据?

因为 Flipkart.com 在第一页上只显示 15 到 20 个结果，滚动时会显示更多结果.Scrapy 成功提取了第一页的结果，但没有提取下一页的结果.我尝试使用 Selenium，但没有成功.这是我的代码:- from scrapy.spider import Spiderfrom scrapy.selector import Selector从 flipkart.items 导入 Fl ..

发布时间：2021-07-16 22:20:43 python selenium selenium-webdriver scrapy scrapy-spider Python

我如何选择“所有语言"?在抓取 TripAdvisor 的评论时?

我是 Python 编程和scrapy 的新手.我一直试图从 www.tripadvisor.com 上抓取一些评论.看来，对于一些酒店，有非英语语言的评论，当我使用以下代码时，我只能得到英语语言的评分: 导入scrapy从scrapy.http导入请求进口重新类 ReviewScrapeSpider(scrapy.Spider):name = 'review_scrape'allowed_do ..

发布时间：2021-07-16 22:19:40 python scrapy scrapy-spider Python

scrapy-spider相关内容