scrapy 第2页 - IT屋-程序员软件开发技术分享社区

如何在一定数量的请求后停止scrapy蜘蛛?

我正在开发一个简单的抓取工具来获取 9 个恶作剧帖子及其图像，但由于一些技术困难，我无法停止抓取工具并继续抓取，这是我不想要的.我想增加计数器值并在 100 个帖子后停止.但是 9gag 页面的设计方式是在每个响应中它只提供 10 个帖子，并且在每次迭代后，我的计数器值重置为 10，在这种情况下，我的循环无限长且永不停止. # -*- 编码:utf-8 -*-导入scrapy从 _9gag.it ..

发布时间：2022-01-04 21:09:25 python python-2.7 loops python-3.x scrapy Python

如何防止在抓取亚马逊时被列入黑名单

我尝试通过 Scrapy 抓取 Amazon.但我有这个错误调试:重试 (失败 1 次):503 服务不可 ..

发布时间：2022-01-04 21:09:13 web-scraping scrapy web-crawler amazon scrapy-spider 其他开发

Scrapy，Python:一个管道中的多个项目类?

我有一个 Spider，它可以抓取无法保存在一个项目类中的数据. 为了说明，我有一个配置文件项，每个配置文件项可能有未知数量的评论.这就是为什么我要实现 Profile Item 和 Comment Item.我知道我可以通过使用 yield 将它们传递到我的管道中. 但是，我不知道具有一个 parse_item 函数的管道如何处理两个不同的项目类? 或者是否可以使用不同的 pa ..

发布时间：2022-01-04 21:08:51 python scrapy pipeline Python

如何禁用或更改 ghostdriver.log 的路径?

问题很简单，但一些上下文可能会有所帮助. 我尝试在使用 selenium 和 phantomjs 作为下载器的同时部署scrapy.但问题是它在尝试部署时一直说权限被拒绝.所以我想改变ghostdriver.log的路径或者只是禁用它.看着phantomjs -h和ghostdriver github页面我找不到答案，我的朋友google也让我失望. $scrapy 部署履带式建筑蛋-13 ..

发布时间：2022-01-04 21:08:38 scrapy phantomjs ghostdriver 其他开发

Scrapy 规则如何与爬行蜘蛛一起使用

我很难理解scrapy crawl蜘蛛规则.我的示例无法正常工作，因此可能是两件事: 我不明白规则是如何运作的. 我形成了不正确的正则表达式，导致我无法获得所需的结果. 好的，这就是我想做的: 我想编写一个爬行蜘蛛，它将从 http://www.euroleague.net 网站.包含我开始所需的所有信息的网站页面是这里. 第一步我想的第一步是提取“季节"链接并休 ..

发布时间：2022-01-04 21:08:14 python regex web-crawler scrapy Python

在 Visual Studio Code 中调试 Scrapy 项目

我在一台 Windows 机器上有 Visual Studio Code，我正在制作一个新的 Scrapy Crawler.爬虫工作正常，但我想调试代码，为此我将其添加到我的 launch.json 文件中: {"name": "带有集成终端/控制台的 Scrapy",“类型":“蟒蛇"，“请求":“启动"，“stopOnEntry":真，"pythonPath": "${config:pyth ..

发布时间：2022-01-04 21:08:06 python python-3.x visual-studio scrapy visual-studio-code Python

Scrapy:如何在蜘蛛中使用项目以及如何将项目发送到管道?

我是 scrapy 的新手，我的任务很简单: 对于给定的电子商务网站: 抓取所有网站页面查找产品页面如果 URL 指向产品页面创建项目处理项目以将其存储在数据库中我创建了蜘蛛，但产品只是打印在一个简单的文件中. 我的问题是关于项目结构:如何在蜘蛛中使用项目以及如何将项目发送到管道? 我找不到使用项目和管道的项目的简单示例. 解决 ..

发布时间：2022-01-04 21:07:42 python scrapy scrapy-spider scrapy-pipeline Python

了解 Scrapy 中的回调

我是 Python 和 Scrapy 的新手.我之前没有使用过回调函数.但是，我现在为下面的代码做.第一个请求将被执行，其响应将被发送到定义为第二个参数的回调函数: def parse_page1(self, response):项目 = 我的项目()item['main_url'] = response.urlrequest = Request("http://www.example.com/ ..

发布时间：2022-01-04 21:07:28 python callback scrapy Python

加速网络爬虫

我正在使用 scrapy 使用非常简单的网页抓取工具抓取 23770 个网页.我对scrapy甚至python都很陌生，但设法编写了一个蜘蛛来完成这项工作.然而，它真的很慢(爬取 23770 个页面需要大约 28 小时). 我查看了 scrapy 网页、邮件列表和 stackoverflow，但我似乎找不到编写初学者可以理解的快速爬虫的通用建议.也许我的问题不是蜘蛛本身，而是我运行它的方式. ..

发布时间：2022-01-04 21:07:15 python performance web-scraping scrapy scrapy-spider Python

为什么我在 Scrapy 中出现 KeyError?

我在 Celery 中使用 Scrapy 蜘蛛，我随机收到此类错误未处理的错误回溯(最近一次调用最后一次):文件“/usr/lib/python2.7/site-packages/twisted/internet/base.py"，第428行，在fireEvent中DeferredList(beforeResults).addCallback(self._continueFiring)文件“/ ..

发布时间：2022-01-04 21:06:44 python django scrapy celery twisted Python

Scrapy - 为什么循环中的项目在另一个解析器中访问时具有相同的值

我想抓取for循环内的链接，在for循环中有项目，我将项目传递给回调函数.但是为什么回调函数中的项目具有相同的值.这是我的代码. 导入scrapy进口重新从scraper.product_items 导入产品类 ProductSpider(scrapy.Spider):名称 = "产品蜘蛛"start_urls = ['http://www.website.com/category-page/' ..

发布时间：2022-01-04 21:06:31 scrapy 其他开发

使用 Python/Scrapy 在 h1 中提取 p

我正在使用 Scrapy 从网站中提取有关音乐会的一些数据.我正在使用的至少一个网站(错误地，根据 W3C - 在 HTML5 中的标题标签内有段落元素是否有效(P 在 H1 内)?)在 h1 元素内的 ap 元素.尽管如此，我还是需要提取 p 元素中的文本，但不知道如何提取. 我已经阅读了文档并查看了示例用途，但我对 Scrapy 比较陌生.我知道该解决方案与将 Selector 类型设置 ..

发布时间：2022-01-04 21:05:51 python html scrapy lxml 前端开发

身份验证失败 - 999- 未处理或不允许 HTTP 状态代码

我使用 scrapy，我想忽略响应 URL.我只是在输出控制台中看到: 调试:忽略响应 :HTTP 状态代码是未处理或不允许. 解决方案根据文档此处您可以添加一个 HTTP 状态代码列表，即使默认情况下不允许它们也应该由您的蜘蛛处理. 在您的情况下，您必须在蜘蛛定义中添加以下行: handle_httpsta ..

发布时间：2022-01-04 21:05:37 python-2.7 scrapy http-status-codes 其他开发

使用 Angular JS 标签(例如 ng-view)从网络中获取文本

我正在尝试从网站获取所有可见文本，我正在使用 python-scrapy 来完成这项工作.然而，我观察到的scrapy 只适用于HTML 标签，如div、body、head 等，而不适用于角js 标签如ng-view，如果ng-view 标签中有任何元素，当我右键单击时页面并查看源代码，然后标签内的内容不会出现，它显示为，那么我如何使用 python 来抓取 ..

发布时间：2022-01-04 21:05:01 python angularjs web-scraping scrapy screen-scraping Python

与浏览器响应不同的糟糕响应

我正在尝试使用 scrapy 抓取此页面: http://www.barnesandnoble.com/s?dref=4815&sort=SA&startat=7391 我得到的响应与我在浏览器中看到的不同.浏览器响应有正确的页面，而scrapy响应是: http://www.barnesandnoble.com/s?dref=4815&sort=SA&startat=1 页面.我试过 u ..

发布时间：2022-01-04 21:04:42 beautifulsoup urllib2 scrapy 其他开发

如何以正确的顺序导入 Scrapy 项目键?

我正在将 Scrapy 项目密钥从 items.py 导入到 pipelines.py.问题在于导入项目的顺序与它们在items.py文件中的定义方式不同. 我的 items.py 文件: class NewAdsItem(Item):AdId = 字段()日期R =字段()AdURL = 字段() 在我的 pipelines.py 中: from adbot.items import ..

发布时间：2022-01-04 21:04:33 python python-3.x scrapy scrapy-pipeline Python

带孩子的 XPath 文本

鉴于此 html: 这是链接这是另一个链接. 如何使用 XPath 得到以下结果: ['这是一个链接',“这是另一个链接."] 我尝试过的: //ul/li/text() 但是这给了我 ['This is ', 'This is .'] (没有 a 标签中的文本还有: ..

发布时间：2022-01-04 21:04:27 html xpath scrapy 前端开发

Scrapy xpath 不提取包含特殊字符 <%= 的 div

我是 Scrapy 的新手.我正在尝试从以下 URL 中提取 h2 文本:'https://www.tysonprop.co.za/agents/' 我有两个问题: 我的 xpath 可以到达 script 元素，但是在 script 标签中找不到 h2 或 div 元素.我什至尝试将 HTML 文件保存到我的机器并抓取该文件，但发生了同样的问题.我已经三重检查了我的 xpath 代码 ..

发布时间：2022-01-04 21:04:20 javascript python html scrapy 前端开发

如何使用 Scrapy 同时运行单个蜘蛛的多个版本?

我的问题如下: 为了赢得时间，我想运行多个版本的单个蜘蛛.过程(解析定义)是一样的，项目是一样的，数据库中的集合也是一样的.改变的是 start_url 变量.它看起来像这样: "https://www.website.com/details/{0}-{1}-{2}/{3}/meeting".format(year,month,day,type_of_meeting) 考虑到日期相同，比 ..

发布时间：2022-01-04 21:04:11 python scrapy Python

运行使用带有硒的scrapy创建的解析器时遇到问题

我已经用 Python scrapy 和 selenium 编写了一个抓取工具来从网站上抓取一些titles.在我的刮板中定义的 css 选择器是完美的.我希望我的刮板继续点击下一页并解析每个页面中嵌入的信息.它在第一页上做得很好，但是当涉及到硒部分的作用时，刮板会一遍又一遍地点击同一个链接. 由于这是我第一次使用 selenium 和scrapy，我不知道要继续成功.任何修复都将受到高度 ..

发布时间：2022-01-04 21:04:02 python python-3.x selenium web-scraping scrapy Python

scrapy相关内容