scrapy-spider相关内容

Scrapy CrawlSpider 重试抓取

对于我试图抓取的页面,我有时会在我的响应中返回一个“占位符"页面,其中包含一些自动重新加载的 javascript,直到它获得真正的页面.我可以检测到这种情况何时发生,我想重新尝试下载和抓取页面.我在 CrawlSpider 中使用的逻辑类似于: def parse_page(self, response):url = response.url# 检查页面是否已加载if 'var PageIsL ..
发布时间:2021-07-16 21:54:48 Python

Scrapy:抓取链接列表

这个问题是我之前问过的这个问题的后续. 我正在尝试抓取一个网站,该网站在第一页上包含一些链接.类似于this. 现在,由于我想抓取页面上显示的项目的详细信息,因此我提取了它们各自的 URL. 我已将这些 URL 保存在列表中. 如何启动蜘蛛来单独抓取页面? 为了更好地理解: [urlA, urlB, urlC, urlD...] 这是我抓取的 URL 列表.现在我 ..
发布时间:2021-07-16 21:54:42 Python

scrapy:使用 itemLoader 填充嵌套项目

我想用 itemLoader 填充这个对象: {“域":“字符串","date_insert": "2016-12-23T11:25:00.213Z","title": "字符串","url": "字符串","body": "字符串","日期": "2016-12-23T11:25:00.213Z",“作者":[“细绳"],“类别":[“细绳"],“标签":[“细绳"],“统计":{"views ..
发布时间:2021-07-16 21:54:27 Python

扭曲的 Python 失败 - Scrapy 问题

我正在尝试使用 SCRAPY 为任何搜索查询抓取本网站的搜索请求 - http://www.bewakoof.com . 该网站使用 AJAX(以 XHR 的形式)来显示搜索结果.我设法跟踪了 XHR,您会在我的代码中注意到它,如下所示(在 for 循环中,其中我将 URL 存储到 temp,并在循环中递增 'i')-: fromtwisted.internet 进口反应堆从scrapy. ..
发布时间:2021-07-16 21:52:51 Python

scrapy 使用 CrawlerProcess.crawl() 将 custom_settings 从脚本传递给蜘蛛

我正在尝试通过脚本以编程方式调用蜘蛛.我无法使用 CrawlerProcess 通过构造函数覆盖设置.让我用默认的爬虫来说明这一点,用于从官方 scrapy 站点抓取引号(官方scrapy引用示例蜘蛛). class QuotesSpider(蜘蛛):名称 = "引用"def __init__(self, somestring, *args, **kwargs):super(QuotesSpid ..

Scrapy CrawlSpider 基于 start_urls 的动态规则?

我正在编写一个 Scrapy 抓取工具,它使用 CrawlSpider 来抓取网站、查看其内部链接并抓取任何外部链接的内容(域与原始域不同的链接). 我设法用 2 条规则做到了这一点,但它们基于被抓取的站点的域.如果我想在多个网站上运行它,我会遇到问题,因为我不知道我当前使用的是哪个“start_url",因此我无法适当地更改规则. 这是我到目前为止的想法,它适用于一个网站,但我不确定 ..
发布时间:2021-07-16 21:51:53 Python

Scrapy CrawlSpider 什么都不爬

我正在尝试抓取 Booking.Com.蜘蛛打开和关闭没有打开和爬取url.[输出][1][1]:https://i.stack.imgur.com/9hDt6.png我是 python 和 Scrapy 的新手.这是我到目前为止编写的代码.请指出我做错了什么. 导入scrapy导入 urllib从 scrapy.contrib.spiders 导入 CrawlSpider,规则from scr ..
发布时间:2021-07-16 21:48:35 Python

依次运行多个 Spider

类 Myspider1#做一点事....类 Myspider2#做一点事... 以上是我的spider.py文件的架构.我试图先运行 Myspider1,然后根据某些条件多次运行 Myspider2.我怎么能这样???有小费吗? configure_logging()跑步者 = CrawlerRunner()定义抓取():yield runner.crawl(Myspider1,arg.... ..
发布时间:2021-07-16 21:48:22 Python

在脚本文件函数中获取 Scrapy 爬虫输出/结果

我正在使用脚本文件在 scrapy 项目中运行爬虫,爬虫正在记录爬虫输出/结果.但是我想在某个函数的脚本文件中使用蜘蛛输出/结果.我不想将输出/结果保存在任何文件或数据库中.这是从 https://doc.scrapy 获取的脚本代码.org/en/latest/topics/practices.html#run-from-script fromtwisted.internet 进口反应堆从 s ..
发布时间:2021-07-16 21:48:08 Python

并行进程中 Scrapy Spider 的多处理

我已经在 Stack Overflow 上阅读了几个类似的问题.不幸的是,我丢失了所有链接,因为我的浏览历史记录被意外删除. 以上所有问题,都帮不了我.要么,他们中的一些人使用了 CELERY 或他们中的一些人 SCRAPYD,我想使用 MULTIPROCESSISNG 库.此外,Scrapy 官方文档展示了如何在单个进程上运行多个蜘蛛,而不是在多个进程上运行. 他们都帮不了我,所以我 ..

在scrapy中为1个网站并行运行多个蜘蛛?

我想抓取一个包含 2 个部分的网站,但我的脚本没有我需要的那么快. 是否可以发射 2 个蜘蛛,一个用于抓取第一部分,第二个用于第二部分? 我尝试有 2 个不同的类,然后运行它们 scrapy 爬取 firstSpider爬行 secondSpider 但我认为它不聪​​明. 我阅读了scrapyd 的文档,但我不知道这对我的情况有好处. 解决方案 我认为您正在寻找的是 ..
发布时间:2021-07-16 21:46:07 Python

重定向请求的回调 Scrapy

我正在尝试使用抓取框架进行抓取.一些请求被重定向,但 start_requests 中设置的回调函数不会为这些重定向的 url 请求调用,但对非重定向的请求工作正常. 我在 start_requests 函数中有以下代码: 用于用户中的用户:yield scrapy.Request(url=userBaseUrl+str(user['userId']),cookies=cookies,h ..