scrapy-pipeline - IT屋-程序员软件开发技术分享社区

Scrapy:如何在蜘蛛中使用项目以及如何将项目发送到管道?

我是 scrapy 的新手，我的任务很简单: 对于给定的电子商务网站: 抓取所有网站页面查找产品页面如果 URL 指向产品页面创建项目处理项目以将其存储在数据库中我创建了蜘蛛，但产品只是打印在一个简单的文件中. 我的问题是关于项目结构:如何在蜘蛛中使用项目以及如何将项目发送到管道? 我找不到使用项目和管道的项目的简单示例. 解决 ..

如何以正确的顺序导入 Scrapy 项目键?

我正在将 Scrapy 项目密钥从 items.py 导入到 pipelines.py.问题在于导入项目的顺序与它们在items.py文件中的定义方式不同. 我的 items.py 文件: class NewAdsItem(Item):AdId = 字段()日期R =字段()AdURL = 字段() 在我的 pipelines.py 中: from adbot.items import ..

发布时间：2022-01-04 21:04:33 python python-3.x scrapy scrapy-pipeline Python

将scrapy项目导出到不同的文件

我正在从 moocs 中抓取这样的评论一个从那里我获得了所有课程的详细信息，每个评论本身有 5 个项目和另外 6 个项目. 这是我的课程详情代码: def parse_reviews(self, response):l = ItemLoader(item=MoocsItem(), response=response)l.add_xpath('course_title', '//* ..

发布时间：2022-01-04 20:55:58 python scrapy scrapy-pipeline Python

尝试从 Scrapy 管道将抓取数据写入 Bigquery 时，请求的身份验证范围不足 (403)

我正在尝试构建 Scrapy 爬虫:spider 将抓取数据，然后在 pipeline.py 中，数据将保存到 Bigquery.我通过 docker 构建它，设置 crontab 作业并推送到谷歌云服务器以日常运行. 问题是当crontab 执行scrapy crawler 时，它得到“google.api_core.exceptions.Forbidden: 403 GET https: ..

发布时间：2021-12-30 23:15:44 python cron google-bigquery scrapy-pipeline Python

Scrapy Pipeline 不会插入 MySQL

我正在尝试使用 Scrapy 为大学项目构建一个小应用程序.蜘蛛正在抓取项目，但我的管道没有将数据插入 mysql 数据库.为了测试管道是否不工作或 pymysl 实现是否不工作，我编写了一个测试脚本: 代码开始 #!/usr/bin/python3导入pymysqlstr1 = "嘿"str2 = "那里"str3 = "小"str4 = "脚本"db = pymysql.connect ..

发布时间：2021-06-05 19:41:08 mysql web-scraping scrapy pymysql scrapy-pipeline 数据库

Scrapy图片管道无法下载图片

我正在尝试使用Scrapy Framework和djano-item设置从网页下载图像.我想我已经完成了 doc中的所有操作但是在调用scrapy爬网之后，我的日志看起来像这样: 抓取日志我找不到有关发生问题的任何信息，但“图像"字段为空，目录不包含任何图像. 这是我的模特 class Event(models.Model): title = models.Ch ..

发布时间：2020-07-06 06:51:21 django scrapy scrapy-pipeline 其他开发

使用scrapy从值列表中抓取网站

我有一个NPI列表，我想从npidb.org中抓取提供程序的名称 NPI值存储在一个csv文件中. 我可以通过将URL粘贴到代码中来手动完成此操作.但是，如果我有每个要提供者名称的NPI列表，则无法弄清楚该怎么做. 这是我当前的代码: import scrapy from scrapy.spider import BaseSpider class MySpider(Base ..

发布时间：2020-07-06 06:51:17 python scrapy scrapy-spider scrapy-pipeline Python

Scrapy and celery`update_state`

我具有以下设置(Docker): 芹菜链接到运行Scrapy蜘蛛的Flask设置烧瓶设置(显然) 烧瓶安装程序收到对Scrapy的请求->解雇工作人员来做一些工作现在，我想根据芹菜工人的进度更新原始烧瓶的设置. 但是目前无法在刮板内部使用celery.update_state()，因为它无法访问原始任务(尽管它正在celery任务内部运行). 顺便说一句:我是否遗漏了sc ..

发布时间：2020-07-06 06:51:13 python scrapy celery scrapy-pipeline Python

Scrapy自定义管道输出文件的大小是预期大小的一半

我正在尝试为Scrapy项目创建自定义管道，以将收集的项目输出到CSV文件.为了减小每个文件的大小，我想设置每个文件可以具有的最大行数.在当前文件中达到行数限制后，将创建一个新文件以继续输出项目. 幸运的是，我发现了一个问题，其中有人希望做同样的事情.该问题有答案，其中显示了示例实现. 我实现了示例实现，但是调整了访问stats的方式以与Scrapy的当前版本保持一致. 我当前的 ..

发布时间：2020-07-06 06:51:09 python python-3.x scrapy scrapy-pipeline Python

尝试从Scrapy的管道将抓取数据写入Bigquery时，请求的身份验证范围不足(403)

我正在尝试构建Scrapy爬网程序:Spider将对数据进行爬网，然后在pipeline.py中将数据保存到Bigquery.我是由docker构建的，设置了crontab作业，并推送到Google Cloud Server以使其每日运行. 问题是crontab执行刮scrap的抓取工具时，出现了"google.api_core.exceptions.Forbidden:403 GET 有 ..

发布时间：2020-07-06 06:51:07 python cron google-bigquery scrapy-pipeline Python

在Scrapy项目中使用Django的模型(在管道中)

以前曾有人问过，但总会出现的答案是使用 DjangoItem .但是它在github上指出: 对于写密集型应用程序(例如Web爬网程序)而言，通常不是一个好的选择...可能无法很好地扩展这是我问题的症结所在，我想以与运行 python manage.py shell 时相同的方式使用django模型并与之交互>，然后从myapp.models中导入 .使用查询如此处所示. 我尝 ..

发布时间：2020-07-06 06:51:04 python django django-models scrapy scrapy-pipeline Python

如何在scrapy item导出中每次启用覆盖文件?

我正在抓取一个返回urls列表的网站. 示例-scrapy crawl xyz_spider -o urls.csv 现在可以正常工作了，我想制作一个新的urls.csv而不是将data追加到文件中.我可以通过任何参数使它启用吗? 解决方案不幸的是，目前抓不住不能做到这一点. 不过，在github上有一个建议的增强功能: https://github.com/scrapy/scr ..

发布时间：2020-07-06 06:50:01 python csv scrapy scrapy-spider scrapy-pipeline Python

Scrapy将返回的项目存储在变量中以在主脚本中使用

我对Scrapy还是陌生的，想尝试以下方法: 从网页中提取一些值，将其存储在变量中，然后在我的主脚本中使用它. 因此，我遵循了他们的教程并出于我的目的更改了代码: import scrapy from scrapy.crawler import CrawlerProcess class QuotesSpider(scrapy.Spider): name = "quotes" ..

发布时间：2020-07-06 06:49:57 python web-scraping scrapy scrapy-spider scrapy-pipeline Python

Scrapy:如何在Spider中使用项目以及如何将项目发送到管道?

我是scrapy的新手，我的任务很简单: 对于给定的电子商务网站: 抓取所有网站页面查找产品页面如果URL指向产品页面创建项目处理该项目以将其存储在数据库中我创建了蜘蛛，但是产品只是打印在一个简单的文件中. 我的问题是关于项目结构的:如何在Spider中使用项目以及如何将项目发送到管道? 我找不到使用项目和管道的项目的简单示例. ..

发布时间：2020-07-06 06:49:54 python scrapy scrapy-spider scrapy-pipeline Python

Scrapy Image Pipeline:如何重命名图像?

我有一个蜘蛛，可以同时获取数据和图像.我想用我正在获取的相应“标题"重命名图像. 以下是我的代码: spider1.py from imageToFileSystemCheck.items import ImagetofilesystemcheckItem import scrapy class TestSpider(scrapy.Spider): name = 'ima ..

发布时间：2020-07-06 06:49:50 image python-3.x scrapy scrapy-pipeline 其他开发

如何以正确的顺序导入Scrapy项目密钥?

我正在将items.py中的Scrapy项目键导入到pipelines.py中. 问题在于，导入项目的顺序与items.py文件中的定义不同. 我的items.py文件: class NewAdsItem(Item): AdId = Field() DateR = Field() AdURL = Field() 在我的p ..

发布时间：2020-07-06 06:49:48 python python-3.x scrapy scrapy-pipeline Python

Scrapy管道SQLAlchemy在输入DB之前检查项目是否存在?

我正在编写一个抓抓的蜘蛛来抓取youtube vid并捕获，名称，子用户数，链接等.我从教程中复制了此SQLalchemy代码并使其正常工作，但是每次我运行抓取器时，我都会在数据库. 如何检查刮取的数据是否已存在于数据库中，如果已存在，请不要进入数据库.... 这是我的pipeline.py代码 from sqlalchemy.orm import sessionmaker fr ..

发布时间：2020-07-06 06:48:46 python sqlalchemy scrapy scrapy-pipeline Python

将抓取的项目导出到不同的文件

我正在从Moocs抓取评论，例如从那里，我获得了所有课程详细信息，每条评论本身的5项和另外6项. 这是我用于课程详细信息的代码: def parse_reviews(self, response): l = ItemLoader(item=MoocsItem(), response=response) l.add_xpath('course_title', '//*[@ ..

发布时间：2020-07-06 06:47:43 python scrapy scrapy-pipeline Python

Scrapy文件下载如何使用自定义文件名

对于我的 scrapy 项目，我目前正在使用[(True, {'checksum': '2b00042f7481c7b056c4b410d28f33cf', 'path': 'full/0a79c461a4062ac383dc4fade7bc09f1384a3910.jpg', 'url': 'http://www.example.com/files/product1.pdf'}), (False ..

发布时间：2020-07-06 06:47:41 python scrapy scrapy-spider scrapy-pipeline Python

Scrapy管道解析

我建立了一个管道，以将抓取的数据放入我的Parse Backend PARSE ='api.parse.com' 端口= 443 但是，我找不到在Parse中发布数据的正确方法.因为每次它都会在我的Parse DB中创建未定义的对象. class Newscrawlbotv01Pipeline(object): def process_item(self, item, ..

发布时间：2020-05-24 23:46:13 python parse-platform scrapy scrapy-pipeline Python

scrapy-pipeline相关内容