scrapy相关内容
我正在开发一个简单的抓取工具来获取 9 个恶作剧帖子及其图像,但由于一些技术困难,我无法停止抓取工具并继续抓取,这是我不想要的.我想增加计数器值并在 100 个帖子后停止.但是 9gag 页面的设计方式是在每个响应中它只提供 10 个帖子,并且在每次迭代后,我的计数器值重置为 10,在这种情况下,我的循环无限长且永不停止. # -*- 编码:utf-8 -*-导入scrapy从 _9gag.it
..
我尝试通过 Scrapy 抓取 Amazon.但我有这个错误 调试:重试 (失败 1 次):503 服务不可
..
我有一个 Spider,它可以抓取无法保存在一个项目类中的数据. 为了说明,我有一个配置文件项,每个配置文件项可能有未知数量的评论.这就是为什么我要实现 Profile Item 和 Comment Item.我知道我可以通过使用 yield 将它们传递到我的管道中. 但是,我不知道具有一个 parse_item 函数的管道如何处理两个不同的项目类? 或者是否可以使用不同的 pa
..
问题很简单,但一些上下文可能会有所帮助. 我尝试在使用 selenium 和 phantomjs 作为下载器的同时部署scrapy.但问题是它在尝试部署时一直说权限被拒绝.所以我想改变ghostdriver.log的路径或者只是禁用它.看着phantomjs -h和ghostdriver github页面我找不到答案,我的朋友google也让我失望. $scrapy 部署履带式建筑蛋-13
..
我很难理解scrapy crawl蜘蛛规则.我的示例无法正常工作,因此可能是两件事: 我不明白规则是如何运作的. 我形成了不正确的正则表达式,导致我无法获得所需的结果. 好的,这就是我想做的: 我想编写一个爬行蜘蛛,它将从 http://www.euroleague.net 网站.包含我开始所需的所有信息的网站页面是这里. 第一步 我想的第一步是提取“季节"链接并休
..
我在一台 Windows 机器上有 Visual Studio Code,我正在制作一个新的 Scrapy Crawler.爬虫工作正常,但我想调试代码,为此我将其添加到我的 launch.json 文件中: {"name": "带有集成终端/控制台的 Scrapy",“类型":“蟒蛇",“请求":“启动",“stopOnEntry":真,"pythonPath": "${config:pyth
..
我是 scrapy 的新手,我的任务很简单: 对于给定的电子商务网站: 抓取所有网站页面 查找产品页面 如果 URL 指向产品页面 创建项目 处理项目以将其存储在数据库中 我创建了蜘蛛,但产品只是打印在一个简单的文件中. 我的问题是关于项目结构:如何在蜘蛛中使用项目以及如何将项目发送到管道? 我找不到使用项目和管道的项目的简单示例. 解决
..
我是 Python 和 Scrapy 的新手.我之前没有使用过回调函数.但是,我现在为下面的代码做.第一个请求将被执行,其响应将被发送到定义为第二个参数的回调函数: def parse_page1(self, response):项目 = 我的项目()item['main_url'] = response.urlrequest = Request("http://www.example.com/
..
我正在使用 scrapy 使用非常简单的网页抓取工具抓取 23770 个网页.我对scrapy甚至python都很陌生,但设法编写了一个蜘蛛来完成这项工作.然而,它真的很慢(爬取 23770 个页面需要大约 28 小时). 我查看了 scrapy 网页、邮件列表和 stackoverflow,但我似乎找不到编写初学者可以理解的快速爬虫的通用建议.也许我的问题不是蜘蛛本身,而是我运行它的方式.
..
我在 Celery 中使用 Scrapy 蜘蛛,我随机收到此类错误 未处理的错误回溯(最近一次调用最后一次):文件“/usr/lib/python2.7/site-packages/twisted/internet/base.py",第428行,在fireEvent中DeferredList(beforeResults).addCallback(self._continueFiring)文件“/
..
我想抓取for循环内的链接,在for循环中有项目,我将项目传递给回调函数.但是为什么回调函数中的项目具有相同的值.这是我的代码. 导入scrapy进口重新从scraper.product_items 导入产品类 ProductSpider(scrapy.Spider):名称 = "产品蜘蛛"start_urls = ['http://www.website.com/category-page/'
..
我正在使用 Scrapy 从网站中提取有关音乐会的一些数据.我正在使用的至少一个网站(错误地,根据 W3C - 在 HTML5 中的标题标签内有段落元素是否有效(P 在 H1 内)?)在 h1 元素内的 ap 元素.尽管如此,我还是需要提取 p 元素中的文本,但不知道如何提取. 我已经阅读了文档并查看了示例用途,但我对 Scrapy 比较陌生.我知道该解决方案与将 Selector 类型设置
..
我使用 scrapy,我想忽略响应 URL.我只是在输出控制台中看到: 调试:忽略响应 :HTTP 状态代码是未处理或不允许. 解决方案 根据文档 此处 您可以添加一个 HTTP 状态代码列表,即使默认情况下不允许它们也应该由您的蜘蛛处理. 在您的情况下,您必须在蜘蛛定义中添加以下行: handle_httpsta
..
我正在尝试从网站获取所有可见文本,我正在使用 python-scrapy 来完成这项工作.然而,我观察到的scrapy 只适用于HTML 标签,如div、body、head 等,而不适用于角js 标签如ng-view,如果ng-view 标签中有任何元素,当我右键单击时页面并查看源代码,然后标签内的内容不会出现,它显示为 ,那么我如何使用 python 来抓取
..
我正在尝试使用 scrapy 抓取此页面: http://www.barnesandnoble.com/s?dref=4815&sort=SA&startat=7391 我得到的响应与我在浏览器中看到的不同.浏览器响应有正确的页面,而scrapy响应是: http://www.barnesandnoble.com/s?dref=4815&sort=SA&startat=1 页面.我试过 u
..
我正在将 Scrapy 项目密钥从 items.py 导入到 pipelines.py.问题在于导入项目的顺序与它们在items.py文件中的定义方式不同. 我的 items.py 文件: class NewAdsItem(Item):AdId = 字段()日期R =字段()AdURL = 字段() 在我的 pipelines.py 中: from adbot.items import
..
鉴于此 html: 这是链接
这是另一个链接.
如何使用 XPath 得到以下结果: ['这是一个链接',“这是另一个链接."] 我尝试过的: //ul/li/text() 但是这给了我 ['This is ', 'This is .'] (没有 a 标签中的文本 还有:
..
我是 Scrapy 的新手.我正在尝试从以下 URL 中提取 h2 文本:'https://www.tysonprop.co.za/agents/' 我有两个问题: 我的 xpath 可以到达 script 元素,但是在 script 标签中找不到 h2 或 div 元素.我什至尝试将 HTML 文件保存到我的机器并抓取该文件,但发生了同样的问题.我已经三重检查了我的 xpath 代码
..
我的问题如下: 为了赢得时间,我想运行多个版本的单个蜘蛛.过程(解析定义)是一样的,项目是一样的,数据库中的集合也是一样的.改变的是 start_url 变量.它看起来像这样: "https://www.website.com/details/{0}-{1}-{2}/{3}/meeting".format(year,month,day,type_of_meeting) 考虑到日期相同,比
..
我已经用 Python scrapy 和 selenium 编写了一个抓取工具来从网站上抓取一些titles.在我的刮板中定义的 css 选择器 是完美的.我希望我的刮板继续点击下一页并解析每个页面中嵌入的信息.它在第一页上做得很好,但是当涉及到硒部分的作用时,刮板会一遍又一遍地点击同一个链接. 由于这是我第一次使用 selenium 和scrapy,我不知道要继续成功.任何修复都将受到高度
..