scrapy-spider相关内容

Scrapy:如何在蜘蛛中使用项目以及如何将项目发送到管道?

我是 scrapy 的新手,我的任务很简单: 对于给定的电子商务网站: 抓取所有网站页面 查找产品页面 如果 URL 指向产品页面 创建项目 处理项目以将其存储在数据库中 我创建了蜘蛛,但产品只是打印在一个简单的文件中. 我的问题是关于项目结构:如何在蜘蛛中使用项目以及如何将项目发送到管道? 我找不到使用项目和管道的项目的简单示例. 解决 ..
发布时间:2022-01-04 21:07:42 Python

加速网络爬虫

我正在使用 scrapy 使用非常简单的网页抓取工具抓取 23770 个网页.我对scrapy甚至python都很陌生,但设法编写了一个蜘蛛来完成这项工作.然而,它真的很慢(爬取 23770 个页面需要大约 28 小时). 我查看了 scrapy 网页、邮件列表和 stackoverflow,但我似乎找不到编写初学者可以理解的快速爬虫的通用建议.也许我的问题不是蜘蛛本身,而是我运行它的方式. ..
发布时间:2022-01-04 21:07:15 Python

带有scrapy的多个嵌套请求

为了研究项目,我尝试在 www.flightradar24.com 网站上删除一些飞机时刻表信息. 我想要获取的 json 文件的层次结构是这样的: 对象 ID- 国家- 关联- 名称- 机场- 机场 0- code_total- 关联- 纬度- 隆- 名称- 日程- ...- ...- 机场 1- code_total- 关联- 纬度- 隆- 名称- 日程- ...- ... Coun ..
发布时间:2022-01-04 20:57:07 其他开发

scrapy 使用 CrawlerProcess.crawl() 从脚本中将 custom_settings 传递给蜘蛛

我正在尝试通过脚本以编程方式调用蜘蛛.我无法使用 CrawlerProcess 通过构造函数覆盖设置.让我用默认的爬虫来说明这一点,它用于从官方 scrapy 站点抓取引号(官方scrapy引用示例蜘蛛). class QuotesSpider(蜘蛛):名称 = "引用"def __init__(self, somestring, *args, **kwargs):super(QuotesSpi ..

爬虫蜘蛛中的多重继承

是否可以创建一个从两个基本蜘蛛(即 SitemapSpider 和 CrawlSpider)继承功能的蜘蛛? 我一直在尝试从各个站点抓取数据,并意识到并非所有站点都列出了网站上的每个页面,因此需要使用 CrawlSpider.但是 CrawlSpider 浏览了很多垃圾页面,有点矫枉过正. 我想做的是这样的: 启动作为 SitemapSpider 子类的我的 Spider 并传递 ..
发布时间:2022-01-04 20:52:17 Python

顺序运行多个蜘蛛

类 Myspider1#做一点事....类 Myspider2#做一点事... 以上是我的spider.py文件的架构.我试图先运行 Myspider1,然后根据某些条件多次运行 Myspider2.我怎么能这样做???有小费吗? configure_logging()跑步者 = CrawlerRunner()定义抓取():yield runner.crawl(Myspider1,arg... ..
发布时间:2022-01-04 20:46:56 Python

Scrapy 抓取下一页

我有这个用于scrapy框架的代码: # -*- 编码:utf-8 -*-导入scrapy从scrapy.contrib.spiders 导入规则从scrapy.linkextractors 导入LinkExtractor从 lxml 导入 html类 Scrapy1Spider(scrapy.Spider):名称 = "scrapy1"allowed_domains = ["sfbay.cra ..
发布时间:2022-01-04 20:46:47 Python

从scrapy导出csv文件(不是通过命令行)

我成功地尝试从命令行将我的项目导出到 csv 文件中,例如: scrapy crawl spiderName -o filename.csv 我的问题是:在代码中执行相同操作的最简单解决方案是什么?我需要这个,因为我从另一个文件中提取文件名.结束场景应该是,我称之为 scrapy crawl spiderName 并将项目写入 filename.csv 解决方案 为什么不使用项目管 ..
发布时间:2022-01-04 20:45:11 Python

通过 .txt 文件向 Scrapy Spider 传递要抓取的 URL 列表

我对 Python 有点陌生,对 Scrapy 也很陌生. 我已经设置了一个蜘蛛来抓取和提取我需要的所有信息.但是,我需要将 URL 的 .txt 文件传递​​给 start_urls 变量. 例如: class LinkChecker(BaseSpider):名称 = '链接检查器'start_urls = [] #这里我希望列表开始通过命令行从文本文件中抓取 url 列表. 我 ..

无法摆脱 csv 输出中的空白行

我在 python scrapy 中编写了一个非常小的脚本来解析在来自黄页网站的多个页面上显示的姓名、街道和电话号码.当我运行我的脚本时,我发现它运行顺利.但是,我遇到的唯一问题是在 csv 输出中抓取数据的方式.它始终是两行之间的线(行)间隙.我的意思是:数据每隔一行打印一次.看到下面的图片你就会明白我的意思.如果不是scrapy,我本可以使用[newline=''].但是,不幸的是,我在这里完 ..
发布时间:2021-12-17 14:05:22 其他开发

使用多个解析创建 Scrapy 项目数组

我正在使用 Scrapy 抓取列表.我的脚本首先使用 parse_node 解析列表 URL,然后使用 parse_listing 解析每个列表,对于每个列表,它使用 parse_agent.我想创建一个数组,该数组通过列表和列表的代理进行scrapy 解析,并为每个新列表进行重置. 这是我的解析脚本: def parse_node(self,response,node):产量请求('列 ..
发布时间:2021-11-18 04:19:57 Python

使用 Selenium 抓取 iframe

我想抓取网站中的广告,但其中很多都是动态的,而且是 DOM 对象.例如在这个片段 我可以通过 Selenium 获取 iframe 标签,但我不能再进一步了.我认为这是因为 XPATH.在这种情况下,iframe 内 的 XPATH 是 /html,与主页 相同. 这是使用的代码行: element = WebDriverWait(self.driver,20).until(EC.p ..
发布时间:2021-09-22 20:29:11 其他开发

无法获得正确的 Xpath

我正在尝试使用通用 xpath 从购物小部件中提取所有产品链接和图像链接. 这是网站:http://www.stopitrightnow.com/ 这是我拥有的 xpath: xpath('.//*[@class="shopthepost-widget"]/a/@href').extract() 我原以为这会拉出所有链接,但它什么也没做. 以下是widget源码的开头供参考. ..
发布时间:2021-07-17 18:37:25 其他开发