scrapy-spider相关内容
对于我试图抓取的页面,我有时会在我的响应中返回一个“占位符"页面,其中包含一些自动重新加载的 javascript,直到它获得真正的页面.我可以检测到这种情况何时发生,我想重新尝试下载和抓取页面.我在 CrawlSpider 中使用的逻辑类似于: def parse_page(self, response):url = response.url# 检查页面是否已加载if 'var PageIsL
..
这个问题是我之前问过的这个问题的后续. 我正在尝试抓取一个网站,该网站在第一页上包含一些链接.类似于this. 现在,由于我想抓取页面上显示的项目的详细信息,因此我提取了它们各自的 URL. 我已将这些 URL 保存在列表中. 如何启动蜘蛛来单独抓取页面? 为了更好地理解: [urlA, urlB, urlC, urlD...] 这是我抓取的 URL 列表.现在我
..
我想用 itemLoader 填充这个对象: {“域":“字符串","date_insert": "2016-12-23T11:25:00.213Z","title": "字符串","url": "字符串","body": "字符串","日期": "2016-12-23T11:25:00.213Z",“作者":[“细绳"],“类别":[“细绳"],“标签":[“细绳"],“统计":{"views
..
当我尝试抓取某个网站(同时使用蜘蛛和外壳)时,出现以下错误: twisted.web._newclient.ResponseNeverReceived: [] 我发现当没有设置用户代理时会发生这种情况.但是手动设置后,
..
我正在尝试使用 SCRAPY 为任何搜索查询抓取本网站的搜索请求 - http://www.bewakoof.com . 该网站使用 AJAX(以 XHR 的形式)来显示搜索结果.我设法跟踪了 XHR,您会在我的代码中注意到它,如下所示(在 for 循环中,其中我将 URL 存储到 temp,并在循环中递增 'i')-: fromtwisted.internet 进口反应堆从scrapy.
..
我是 Scrapy 的新手,如果这个问题是微不足道的,我很抱歉.我已经从官方网页上阅读了 Scrapy 上的文档.当我浏览文档时,我遇到了这个例子: 导入scrapy从 myproject.items 导入 MyItem类 MySpider(scrapy.Spider):名称 = 'example.com'allowed_domains = ['example.com']start_urls =
..
我正在尝试通过脚本以编程方式调用蜘蛛.我无法使用 CrawlerProcess 通过构造函数覆盖设置.让我用默认的爬虫来说明这一点,用于从官方 scrapy 站点抓取引号(官方scrapy引用示例蜘蛛). class QuotesSpider(蜘蛛):名称 = "引用"def __init__(self, somestring, *args, **kwargs):super(QuotesSpid
..
我想抓取一个仅支持发布数据的网站.我想发送查询参数在所有请求中发布数据.如何实现这一目标? 解决方案 POST 请求可以使用 scrapy 的 Request 或 FormRequest 类. 另外,考虑使用 start_requests() 方法而不是 start_urls 属性. 示例: from scrapy.http import FormRequest类 myspi
..
我正在编写一个 Scrapy 抓取工具,它使用 CrawlSpider 来抓取网站、查看其内部链接并抓取任何外部链接的内容(域与原始域不同的链接). 我设法用 2 条规则做到了这一点,但它们基于被抓取的站点的域.如果我想在多个网站上运行它,我会遇到问题,因为我不知道我当前使用的是哪个“start_url",因此我无法适当地更改规则. 这是我到目前为止的想法,它适用于一个网站,但我不确定
..
我正在使用 scrapy 抓取一些页面并收到以下错误: twisted.internet.error.ConnectionLost 我的命令行输出: 2015-05-04 18:40:32+0800 [cnproxy] INFO:Spider 开启2015-05-04 18:40:32+0800 [cnproxy] 信息:抓取 0 页(以 0 页/分钟),抓取 0 个项目(以 0 个
..
我想为我在蜘蛛的 start_urls 中设置的每个 url 创建单独的输出文件,或者想以某种方式拆分输出文件以明智的 url 开始. 以下是我的蜘蛛的start_urls start_urls = ['http://www.dmoz.org/Arts/', 'http://www.dmoz.org/Business/', 'http://www.dmoz.org/电脑/'] 我想创建单
..
如何将参数传递给这样的 url 请求: site.com/search/?action=search&description=My Search here&e_author= 我如何将参数放在蜘蛛请求的结构上,就像这个例子: req = Request(url="site.com/",parameters={x=1,y=2,z=3}) 解决方案 在 URL 内部传递 GET 参数: r
..
我正在尝试抓取 Booking.Com.蜘蛛打开和关闭没有打开和爬取url.[输出][1][1]:https://i.stack.imgur.com/9hDt6.png我是 python 和 Scrapy 的新手.这是我到目前为止编写的代码.请指出我做错了什么. 导入scrapy导入 urllib从 scrapy.contrib.spiders 导入 CrawlSpider,规则from scr
..
类 Myspider1#做一点事....类 Myspider2#做一点事... 以上是我的spider.py文件的架构.我试图先运行 Myspider1,然后根据某些条件多次运行 Myspider2.我怎么能这样???有小费吗? configure_logging()跑步者 = CrawlerRunner()定义抓取():yield runner.crawl(Myspider1,arg....
..
我正在使用脚本文件在 scrapy 项目中运行爬虫,爬虫正在记录爬虫输出/结果.但是我想在某个函数的脚本文件中使用蜘蛛输出/结果.我不想将输出/结果保存在任何文件或数据库中.这是从 https://doc.scrapy 获取的脚本代码.org/en/latest/topics/practices.html#run-from-script fromtwisted.internet 进口反应堆从 s
..
我想得到与此命令行相同的结果:scrapy crawl linkedin_anonymous -a first=James -a last=Bond -o output.json 我的脚本如下: 导入scrapy从linkedin_anonymous_spider 导入LinkedInAnonymousSpider从 scrapy.crawler 导入 CrawlerProcess从 sc
..
我已经在 Stack Overflow 上阅读了几个类似的问题.不幸的是,我丢失了所有链接,因为我的浏览历史记录被意外删除. 以上所有问题,都帮不了我.要么,他们中的一些人使用了 CELERY 或他们中的一些人 SCRAPYD,我想使用 MULTIPROCESSISNG 库.此外,Scrapy 官方文档展示了如何在单个进程上运行多个蜘蛛,而不是在多个进程上运行. 他们都帮不了我,所以我
..
我想抓取一个包含 2 个部分的网站,但我的脚本没有我需要的那么快. 是否可以发射 2 个蜘蛛,一个用于抓取第一部分,第二个用于第二部分? 我尝试有 2 个不同的类,然后运行它们 scrapy 爬取 firstSpider爬行 secondSpider 但我认为它不聪明. 我阅读了scrapyd 的文档,但我不知道这对我的情况有好处. 解决方案 我认为您正在寻找的是
..
我正在尝试解析 PLoS 的 RSS 提要以获取新出版物.RSS 提要位于 这里. 下面是我的蜘蛛: from scrapy.contrib.spider 导入 XMLFeedSpider类PLoSSpider(XMLFeedSpider):名称 = "plos";itertag = '条目'allowed_domains = [“plosone.org"]start_urls = [('
..
我正在尝试使用抓取框架进行抓取.一些请求被重定向,但 start_requests 中设置的回调函数不会为这些重定向的 url 请求调用,但对非重定向的请求工作正常. 我在 start_requests 函数中有以下代码: 用于用户中的用户:yield scrapy.Request(url=userBaseUrl+str(user['userId']),cookies=cookies,h
..