scrapy-pipeline相关内容

Scrapy:如何在蜘蛛中使用项目以及如何将项目发送到管道?

我是 scrapy 的新手,我的任务很简单: 对于给定的电子商务网站: 抓取所有网站页面 查找产品页面 如果 URL 指向产品页面 创建项目 处理项目以将其存储在数据库中 我创建了蜘蛛,但产品只是打印在一个简单的文件中. 我的问题是关于项目结构:如何在蜘蛛中使用项目以及如何将项目发送到管道? 我找不到使用项目和管道的项目的简单示例. 解决 ..
发布时间:2022-01-04 21:07:42 Python

将scrapy项目导出到不同的文件

我正在从 moocs 中抓取这样的评论 一个 从那里我获得了所有课程的详细信息,每个评论本身有 5 个项目和另外 6 个项目. 这是我的课程详情代码: def parse_reviews(self, response):l = ItemLoader(item=MoocsItem(), response=response)l.add_xpath('course_title', '//* ..
发布时间:2022-01-04 20:55:58 Python

尝试从 Scrapy 管道将抓取数据写入 Bigquery 时,请求的身份验证范围不足 (403)

我正在尝试构建 Scrapy 爬虫:spider 将抓取数据,然后在 pipeline.py 中,数据将保存到 Bigquery.我通过 docker 构建它,设置 crontab 作业并推送到谷歌云服务器以日常运行. 问题是当crontab 执行scrapy crawler 时,它得到“google.api_core.exceptions.Forbidden: 403 GET https: ..
发布时间:2021-12-30 23:15:44 Python

Scrapy Pipeline 不会插入 MySQL

我正在尝试使用 Scrapy 为大学项目构建一个小应用程序.蜘蛛正在抓取项目,但我的管道没有将数据插入 mysql 数据库.为了测试管道是否不工作或 pymysl 实现是否不工作,我编写了一个测试脚本: 代码开始 #!/usr/bin/python3导入pymysqlstr1 = "嘿"str2 = "那里"str3 = "小"str4 = "脚本"db = pymysql.connect ..
发布时间:2021-06-05 19:41:08 数据库

Scrapy图片管道无法下载图片

我正在尝试使用Scrapy Framework和djano-item设置从网页下载图像.我想我已经完成了 doc中的所有操作 但是在调用scrapy爬网之后,我的日志看起来像这样: 抓取日志 我找不到有关发生问题的任何信息,但“图像"字段为空,目录不包含任何图像. 这是我的模特 class Event(models.Model): title = models.Ch ..
发布时间:2020-07-06 06:51:21 其他开发

使用scrapy从值列表中抓取网站

我有一个NPI列表,我想从npidb.org中抓取提供程序的名称 NPI值存储在一个csv文件中. 我可以通过将URL粘贴到代码中来手动完成此操作.但是,如果我有每个要提供者名称的NPI列表,则无法弄清楚该怎么做. 这是我当前的代码: import scrapy from scrapy.spider import BaseSpider class MySpider(Base ..
发布时间:2020-07-06 06:51:17 Python

Scrapy and celery`update_state`

我具有以下设置(Docker): 芹菜链接到运行Scrapy蜘蛛的Flask设置 烧瓶设置(显然) 烧瓶安装程序收到对Scrapy的请求->解雇工作人员来做一些工作 现在,我想根据芹菜工人的进度更新原始烧瓶的设置. 但是目前无法在刮板内部使用celery.update_state(),因为它无法访问原始任务(尽管它正在celery任务内部运行). 顺便说一句:我是否遗漏了sc ..
发布时间:2020-07-06 06:51:13 Python

Scrapy自定义管道输出文件的大小是预期大小的一半

我正在尝试为Scrapy项目创建自定义管道,以将收集的项目输出到CSV文件.为了减小每个文件的大小,我想设置每个文件可以具有的最大行数.在当前文件中达到行数限制后,将创建一个新文件以继续输出项目. 幸运的是,我发现了一个问题,其中有人希望做同样的事情.该问题有答案,其中显示了示例实现. 我实现了示例实现,但是调整了访问stats的方式以与Scrapy的当前版本保持一致. 我当前的 ..
发布时间:2020-07-06 06:51:09 Python

尝试从Scrapy的管道将抓取数据写入Bigquery时,请求的身份验证范围不足(403)

我正在尝试构建Scrapy爬网程序:Spider将对数据进行爬网,然后在pipeline.py中将数据保存到Bigquery.我是由docker构建的,设置了crontab作业,并推送到Google Cloud Server以使其每日运行. 问题是crontab执行刮scrap的抓取工具时,出现了"google.api_core.exceptions.Forbidden:403 GET 有 ..
发布时间:2020-07-06 06:51:07 Python

在Scrapy项目中使用Django的模型(在管道中)

以前曾有人问过,但总会出现的答案是使用 DjangoItem .但是它在github上指出: 对于写密集型应用程序(例如Web爬网程序)而言,通常不是一个好的选择...可能无法很好地扩展 这是我问题的症结所在,我想以与运行 python manage.py shell 时相同的方式使用django模型并与之交互>,然后从myapp.models中导入 .使用查询如此处所示. 我尝 ..
发布时间:2020-07-06 06:51:04 Python

如何在scrapy item导出中每次启用覆盖文件?

我正在抓取一个返回urls列表的网站. 示例-scrapy crawl xyz_spider -o urls.csv 现在可以正常工作了,我想制作一个新的urls.csv而不是将data追加到文件中.我可以通过任何参数使它启用吗? 解决方案 不幸的是,目前抓不住不能做到这一点. 不过,在github上有一个建议的增强功能: https://github.com/scrapy/scr ..
发布时间:2020-07-06 06:50:01 Python

Scrapy:如何在Spider中使用项目以及如何将项目发送到管道?

我是scrapy的新手,我的任务很简单: 对于给定的电子商务网站: 抓取所有网站页面 查找产品页面 如果URL指向产品页面 创建项目 处理该项目以将其存储在数据库中 我创建了蜘蛛,但是产品只是打印在一个简单的文件中. 我的问题是关于项目结构的:如何在Spider中使用项目以及如何将项目发送到管道? 我找不到使用项目和管道的项目的简单示例. ..
发布时间:2020-07-06 06:49:54 Python

Scrapy管道SQLAlchemy在输入DB之前检查项目是否存在?

我正在编写一个抓抓的蜘蛛来抓取youtube vid并捕获,名称,子用户数,链接等.我从教程中复制了此SQLalchemy代码并使其正常工作,但是每次我运行抓取器时,我都会在数据库. 如何检查刮取的数据是否已存在于数据库中,如果已存在,请不要进入数据库.... 这是我的pipeline.py代码 from sqlalchemy.orm import sessionmaker fr ..
发布时间:2020-07-06 06:48:46 Python

将抓取的项目导出到不同的文件

我正在从Moocs抓取评论,例如从那里,我获得了所有课程详细信息,每条评论本身的5项和另外6项. 这是我用于课程详细信息的代码: def parse_reviews(self, response): l = ItemLoader(item=MoocsItem(), response=response) l.add_xpath('course_title', '//*[@ ..
发布时间:2020-07-06 06:47:43 Python

Scrapy管道解析

我建立了一个管道,以将抓取的数据放入我的Parse Backend PARSE ='api.parse.com' 端口= 443 但是,我找不到在Parse中发布数据的正确方法.因为每次它都会在我的Parse DB中创建未定义的对象. class Newscrawlbotv01Pipeline(object): def process_item(self, item, ..
发布时间:2020-05-24 23:46:13 Python