scrapy-spider 第6页 - IT屋-程序员软件开发技术分享社区

Scrapy CrawlSpider 重试抓取

对于我试图抓取的页面，我有时会在我的响应中返回一个“占位符"页面，其中包含一些自动重新加载的 javascript，直到它获得真正的页面.我可以检测到这种情况何时发生，我想重新尝试下载和抓取页面.我在 CrawlSpider 中使用的逻辑类似于: def parse_page(self, response):url = response.url# 检查页面是否已加载if 'var PageIsL ..

发布时间：2021-07-16 21:54:48 python scrapy scrapy-spider Python

Scrapy:抓取链接列表

这个问题是我之前问过的这个问题的后续. 我正在尝试抓取一个网站，该网站在第一页上包含一些链接.类似于this. 现在，由于我想抓取页面上显示的项目的详细信息，因此我提取了它们各自的 URL. 我已将这些 URL 保存在列表中. 如何启动蜘蛛来单独抓取页面? 为了更好地理解: [urlA, urlB, urlC, urlD...] 这是我抓取的 URL 列表.现在我 ..

发布时间：2021-07-16 21:54:42 python web-scraping scrapy scrapy-spider Python

scrapy:使用 itemLoader 填充嵌套项目

我想用 itemLoader 填充这个对象: {“域":“字符串"，"date_insert": "2016-12-23T11:25:00.213Z","title": "字符串","url": "字符串","body": "字符串","日期": "2016-12-23T11:25:00.213Z",“作者":[“细绳"],“类别":[“细绳"],“标签":[“细绳"],“统计":{"views ..

发布时间：2021-07-16 21:54:27 python scrapy scrapy-spider Python

Scrapy Shell:twisted.internet.error.ConnectionLost 尽管设置了 USER_AGENT

当我尝试抓取某个网站(同时使用蜘蛛和外壳)时，出现以下错误: twisted.web._newclient.ResponseNeverReceived: [] 我发现当没有设置用户代理时会发生这种情况.但是手动设置后， ..

发布时间：2021-07-16 21:53:09 web-scraping scrapy scrapy-spider scrapy-shell 其他开发

扭曲的 Python 失败 - Scrapy 问题

我正在尝试使用 SCRAPY 为任何搜索查询抓取本网站的搜索请求 - http://www.bewakoof.com . 该网站使用 AJAX(以 XHR 的形式)来显示搜索结果.我设法跟踪了 XHR，您会在我的代码中注意到它，如下所示(在 for 循环中，其中我将 URL 存储到 temp，并在循环中递增 'i')-: fromtwisted.internet 进口反应堆从scrapy. ..

发布时间：2021-07-16 21:52:51 python web-scraping scrapy twisted scrapy-spider Python

python scrapy parse()函数，返回值返回到哪里?

我是 Scrapy 的新手，如果这个问题是微不足道的，我很抱歉.我已经从官方网页上阅读了 Scrapy 上的文档.当我浏览文档时，我遇到了这个例子: 导入scrapy从 myproject.items 导入 MyItem类 MySpider(scrapy.Spider):名称 = 'example.com'allowed_domains = ['example.com']start_urls = ..

发布时间：2021-07-16 21:52:11 python web-scraping scrapy scrapy-spider Python

scrapy 使用 CrawlerProcess.crawl() 将 custom_settings 从脚本传递给蜘蛛

我正在尝试通过脚本以编程方式调用蜘蛛.我无法使用 CrawlerProcess 通过构造函数覆盖设置.让我用默认的爬虫来说明这一点，用于从官方 scrapy 站点抓取引号(官方scrapy引用示例蜘蛛). class QuotesSpider(蜘蛛):名称 = "引用"def __init__(self, somestring, *args, **kwargs):super(QuotesSpid ..

发布时间：2021-07-16 21:52:05 python-3.x web-scraping scrapy scrapy-spider scrapinghub 其他开发

如何在scrapy蜘蛛的start_urls中发送post数据

我想抓取一个仅支持发布数据的网站.我想发送查询参数在所有请求中发布数据.如何实现这一目标? 解决方案 POST 请求可以使用 scrapy 的 Request 或 FormRequest 类. 另外，考虑使用 start_requests() 方法而不是 start_urls 属性. 示例: from scrapy.http import FormRequest类 myspi ..

发布时间：2021-07-16 21:51:59 python web-scraping scrapy scrapy-spider Python

Scrapy CrawlSpider 基于 start_urls 的动态规则?

我正在编写一个 Scrapy 抓取工具，它使用 CrawlSpider 来抓取网站、查看其内部链接并抓取任何外部链接的内容(域与原始域不同的链接). 我设法用 2 条规则做到了这一点，但它们基于被抓取的站点的域.如果我想在多个网站上运行它，我会遇到问题，因为我不知道我当前使用的是哪个“start_url"，因此我无法适当地更改规则. 这是我到目前为止的想法，它适用于一个网站，但我不确定 ..

发布时间：2021-07-16 21:51:53 python web-scraping scrapy web-crawler scrapy-spider Python

使用Scrapy时如何防止twisted.internet.error.ConnectionLost错误?

我正在使用 scrapy 抓取一些页面并收到以下错误: twisted.internet.error.ConnectionLost 我的命令行输出: 2015-05-04 18:40:32+0800 [cnproxy] INFO:Spider 开启2015-05-04 18:40:32+0800 [cnproxy] 信息:抓取 0 页(以 0 页/分钟)，抓取 0 个项目(以 0 个 ..

发布时间：2021-07-16 21:50:58 web-scraping scrapy twisted scrapy-spider 其他开发

在scrapy蜘蛛的start_urls列表中给定的每个url的单独输出文件

我想为我在蜘蛛的 start_urls 中设置的每个 url 创建单独的输出文件，或者想以某种方式拆分输出文件以明智的 url 开始. 以下是我的蜘蛛的start_urls start_urls = ['http://www.dmoz.org/Arts/', 'http://www.dmoz.org/Business/', 'http://www.dmoz.org/电脑/'] 我想创建单 ..

发布时间：2021-07-16 21:50:18 python web-scraping scrapy scrapy-spider Python

如何使用scrapy在请求上指定参数

如何将参数传递给这样的 url 请求: site.com/search/?action=search&description=My Search here&e_author= 我如何将参数放在蜘蛛请求的结构上，就像这个例子: req = Request(url="site.com/",parameters={x=1,y=2,z=3}) 解决方案在 URL 内部传递 GET 参数: r ..

发布时间：2021-07-16 21:48:44 python web-crawler scrapy scrapy-spider Python

Scrapy CrawlSpider 什么都不爬

我正在尝试抓取 Booking.Com.蜘蛛打开和关闭没有打开和爬取url.[输出][1][1]:https://i.stack.imgur.com/9hDt6.png我是 python 和 Scrapy 的新手.这是我到目前为止编写的代码.请指出我做错了什么. 导入scrapy导入 urllib从 scrapy.contrib.spiders 导入 CrawlSpider，规则from scr ..

发布时间：2021-07-16 21:48:35 python scrapy scrapy-spider Python

依次运行多个 Spider

类 Myspider1#做一点事....类 Myspider2#做一点事... 以上是我的spider.py文件的架构.我试图先运行 Myspider1，然后根据某些条件多次运行 Myspider2.我怎么能这样???有小费吗? configure_logging()跑步者 = CrawlerRunner()定义抓取():yield runner.crawl(Myspider1,arg.... ..

发布时间：2021-07-16 21:48:22 python scrapy web-crawler scrapy-spider Python

在脚本文件函数中获取 Scrapy 爬虫输出/结果

我正在使用脚本文件在 scrapy 项目中运行爬虫，爬虫正在记录爬虫输出/结果.但是我想在某个函数的脚本文件中使用蜘蛛输出/结果.我不想将输出/结果保存在任何文件或数据库中.这是从 https://doc.scrapy 获取的脚本代码.org/en/latest/topics/practices.html#run-from-script fromtwisted.internet 进口反应堆从 s ..

发布时间：2021-07-16 21:48:08 python scrapy web-crawler twisted scrapy-spider Python

在 Scrapy python 中将参数传递给 process.crawl

我想得到与此命令行相同的结果:scrapy crawl linkedin_anonymous -a first=James -a last=Bond -o output.json 我的脚本如下: 导入scrapy从linkedin_anonymous_spider 导入LinkedInAnonymousSpider从 scrapy.crawler 导入 CrawlerProcess从 sc ..

发布时间：2021-07-16 21:47:18 python web-crawler scrapy scrapy-spider google-crawlers Python

并行进程中 Scrapy Spider 的多处理

我已经在 Stack Overflow 上阅读了几个类似的问题.不幸的是，我丢失了所有链接，因为我的浏览历史记录被意外删除. 以上所有问题，都帮不了我.要么，他们中的一些人使用了 CELERY 或他们中的一些人 SCRAPYD，我想使用 MULTIPROCESSISNG 库.此外，Scrapy 官方文档展示了如何在单个进程上运行多个蜘蛛，而不是在多个进程上运行. 他们都帮不了我，所以我 ..

发布时间：2021-07-16 21:46:16 python web-scraping scrapy python-multiprocessing scrapy-spider Python

在scrapy中为1个网站并行运行多个蜘蛛?

我想抓取一个包含 2 个部分的网站，但我的脚本没有我需要的那么快. 是否可以发射 2 个蜘蛛，一个用于抓取第一部分，第二个用于第二部分? 我尝试有 2 个不同的类，然后运行它们 scrapy 爬取 firstSpider爬行 secondSpider 但我认为它不聪明. 我阅读了scrapyd 的文档，但我不知道这对我的情况有好处. 解决方案我认为您正在寻找的是 ..

发布时间：2021-07-16 21:46:07 python web-scraping scrapy web-crawler scrapy-spider Python

为什么 XMLFeedSpider 不能遍历指定的节点?

我正在尝试解析 PLoS 的 RSS 提要以获取新出版物.RSS 提要位于这里. 下面是我的蜘蛛: from scrapy.contrib.spider 导入 XMLFeedSpider类PLoSSpider(XMLFeedSpider):名称 = "plos";itertag = '条目'allowed_domains = [“plosone.org"]start_urls = [(' ..

发布时间：2021-07-10 21:03:59 python xml rss scrapy scrapy-spider Python

重定向请求的回调 Scrapy

我正在尝试使用抓取框架进行抓取.一些请求被重定向，但 start_requests 中设置的回调函数不会为这些重定向的 url 请求调用，但对非重定向的请求工作正常. 我在 start_requests 函数中有以下代码: 用于用户中的用户:yield scrapy.Request(url=userBaseUrl+str(user['userId']),cookies=cookies,h ..

发布时间：2021-07-05 19:39:51 redirect scrapy web-crawler url-redirection scrapy-spider 其他开发

scrapy-spider相关内容