scrapy相关内容

如何在一定数量的请求后停止scrapy蜘蛛?

我正在开发一个简单的抓取工具来获取 9 个恶作剧帖子及其图像,但由于一些技术困难,我无法停止抓取工具并继续抓取,这是我不想要的.我想增加计数器值并在 100 个帖子后停止.但是 9gag 页面的设计方式是在每个响应中它只提供 10 个帖子,并且在每次迭代后,我的计数器值重置为 10,在这种情况下,我的循环无限长且永不停止. # -*- 编码:utf-8 -*-导入scrapy从 _9gag.it ..
发布时间:2022-01-04 21:09:25 Python

Scrapy,Python:一个管道中的多个项目类?

我有一个 Spider,它可以抓取无法保存在一个项目类中的数据. 为了说明,我有一个配置文件项,每个配置文件项可能有未知数量的评论.这就是为什么我要实现 Profile Item 和 Comment Item.我知道我可以通过使用 yield 将它们传递到我的管道中. 但是,我不知道具有一个 parse_item 函数的管道如何处理两个不同的项目类? 或者是否可以使用不同的 pa ..
发布时间:2022-01-04 21:08:51 Python

如何禁用或更改 ghostdriver.log 的路径?

问题很简单,但一些上下文可能会有所帮助. 我尝试在使用 selenium 和 phantomjs 作为下载器的同时部署scrapy.但问题是它在尝试部署时一直说权限被拒绝.所以我想改变ghostdriver.log的路径或者只是禁用它.看着phantomjs -h和ghostdriver github页面我找不到答案,我的朋友google也让我失望. $scrapy 部署履带式建筑蛋-13 ..
发布时间:2022-01-04 21:08:38 其他开发

Scrapy 规则如何与爬行蜘蛛一起使用

我很难理解scrapy crawl蜘蛛规则.我的示例无法正常工作,因此可能是两件事: 我不明白规则是如何运作的. 我形成了不正确的正则表达式,导致我无法获得所需的结果. 好的,这就是我想做的: 我想编写一个爬行蜘蛛,它将从 http://www.euroleague.net 网站.包含我开始所需的所有信息的网站页面是这里. 第一步 我想的第一步是提取“季节"链接并休 ..
发布时间:2022-01-04 21:08:14 Python

Scrapy:如何在蜘蛛中使用项目以及如何将项目发送到管道?

我是 scrapy 的新手,我的任务很简单: 对于给定的电子商务网站: 抓取所有网站页面 查找产品页面 如果 URL 指向产品页面 创建项目 处理项目以将其存储在数据库中 我创建了蜘蛛,但产品只是打印在一个简单的文件中. 我的问题是关于项目结构:如何在蜘蛛中使用项目以及如何将项目发送到管道? 我找不到使用项目和管道的项目的简单示例. 解决 ..
发布时间:2022-01-04 21:07:42 Python

了解 Scrapy 中的回调

我是 Python 和 Scrapy 的新手.我之前没有使用过回调函数.但是,我现在为下面的代码做.第一个请求将被执行,其响应将被发送到定义为第二个参数的回调函数: def parse_page1(self, response):项目 = 我的项目()item['main_url'] = response.urlrequest = Request("http://www.example.com/ ..
发布时间:2022-01-04 21:07:28 Python

加速网络爬虫

我正在使用 scrapy 使用非常简单的网页抓取工具抓取 23770 个网页.我对scrapy甚至python都很陌生,但设法编写了一个蜘蛛来完成这项工作.然而,它真的很慢(爬取 23770 个页面需要大约 28 小时). 我查看了 scrapy 网页、邮件列表和 stackoverflow,但我似乎找不到编写初学者可以理解的快速爬虫的通用建议.也许我的问题不是蜘蛛本身,而是我运行它的方式. ..
发布时间:2022-01-04 21:07:15 Python

为什么我在 Scrapy 中出现 KeyError?

我在 Celery 中使用 Scrapy 蜘蛛,我随机收到此类错误 未处理的错误回溯(最近一次调用最后一次):文件“/usr/lib/python2.7/site-packages/twisted/internet/base.py",第428行,在fireEvent中DeferredList(beforeResults).addCallback(self._continueFiring)文件“/ ..
发布时间:2022-01-04 21:06:44 Python

使用 Python/Scrapy 在 h1 中提取 p

我正在使用 Scrapy 从网站中提取有关音乐会的一些数据.我正在使用的至少一个网站(错误地,根据 W3C - 在 HTML5 中的标题标签内有段落元素是否有效(P 在 H1 内)?)在 h1 元素内的 ap 元素.尽管如此,我还是需要提取 p 元素中的文本,但不知道如何提取. 我已经阅读了文档并查看了示例用途,但我对 Scrapy 比较陌生.我知道该解决方案与将 Selector 类型设置 ..
发布时间:2022-01-04 21:05:51 前端开发

身份验证失败 - 999- 未处理或不允许 HTTP 状态代码

我使用 scrapy,我想忽略响应 URL.我只是在输出控制台中看到: 调试:忽略响应 :HTTP 状态代码是未处理或不允许. 解决方案 根据文档 此处 您可以添加一个 HTTP 状态代码列表,即使默认情况下不允许它们也应该由您的蜘蛛处理. 在您的情况下,您必须在蜘蛛定义中添加以下行: handle_httpsta ..
发布时间:2022-01-04 21:05:37 其他开发

使用 Angular JS 标签(例如 ng-view)从网络中获取文本

我正在尝试从网站获取所有可见文本,我正在使用 python-scrapy 来完成这项工作.然而,我观察到的scrapy 只适用于HTML 标签,如div、body、head 等,而不适用于角js 标签如ng-view,如果ng-view 标签中有任何元素,当我右键单击时页面并查看源代码,然后标签内的内容不会出现,它显示为 ,那么我如何使用 python 来抓取 ..
发布时间:2022-01-04 21:05:01 Python

与浏览器响应不同的糟糕响应

我正在尝试使用 scrapy 抓取此页面: http://www.barnesandnoble.com/s?dref=4815&sort=SA&startat=7391 我得到的响应与我在浏览器中看到的不同.浏览器响应有正确的页面,而scrapy响应是: http://www.barnesandnoble.com/s?dref=4815&sort=SA&startat=1 页面.我试过 u ..
发布时间:2022-01-04 21:04:42 其他开发

带孩子的 XPath 文本

鉴于此 html: 这是链接 这是另一个链接. 如何使用 XPath 得到以下结果: ['这是一个链接',“这是另一个链接."] 我尝试过的: //ul/li/text() 但是这给了我 ['This is ', 'This is .'] (没有 a 标签中的文本 还有: ..
发布时间:2022-01-04 21:04:27 前端开发

Scrapy xpath 不提取包含特殊字符 <%= 的 div

我是 Scrapy 的新手.我正在尝试从以下 URL 中提取 h2 文本:'https://www.tysonprop.co.za/agents/' 我有两个问题: 我的 xpath 可以到达 script 元素,但是在 script 标签中找不到 h2 或 div 元素.我什至尝试将 HTML 文件保存到我的机器并抓取该文件,但发生了同样的问题.我已经三重检查了我的 xpath 代码 ..
发布时间:2022-01-04 21:04:20 前端开发

如何使用 Scrapy 同时运行单个蜘蛛的多个版本?

我的问题如下: 为了赢得时间,我想运行多个版本的单个蜘蛛.过程(解析定义)是一样的,项目是一样的,数据库中的集合也是一样的.改变的是 start_url 变量.它看起来像这样: "https://www.website.com/details/{0}-{1}-{2}/{3}/meeting".format(year,month,day,type_of_meeting) 考虑到日期相同,比 ..
发布时间:2022-01-04 21:04:11 Python

运行使用带有硒的scrapy创建的解析器时遇到问题

我已经用 Python scrapy 和 selenium 编写了一个抓取工具来从网站上抓取一些titles.在我的刮板中定义的 css 选择器 是完美的.我希望我的刮板继续点击下一页并解析每个页面中嵌入的信息.它在第一页上做得很好,但是当涉及到硒部分的作用时,刮板会一遍又一遍地点击同一个链接. 由于这是我第一次使用 selenium 和scrapy,我不知道要继续成功.任何修复都将受到高度 ..
发布时间:2022-01-04 21:04:02 Python