scrapy-spider - IT屋-程序员软件开发技术分享社区

在 init 上的 scrapy 管道中使用参数

我有一个scrapy pipelines.py，我想得到给定的参数.在我的 spider.py 中，它运行良好: 类 MySpider(CrawlSpider):def __init__(self, host='', domain_id='', *args, **kwargs):super(MySpider, self).__init__(*args, **kwargs)打印用户 ID... ..

发布时间：2022-01-21 22:20:32 python web-scraping arguments scrapy scrapy-spider Python

如何防止在抓取亚马逊时被列入黑名单

我尝试通过 Scrapy 抓取 Amazon.但我有这个错误调试:重试 (失败 1 次):503 服务不可 ..

发布时间：2022-01-04 21:09:13 web-scraping scrapy web-crawler amazon scrapy-spider 其他开发

Scrapy:如何在蜘蛛中使用项目以及如何将项目发送到管道?

我是 scrapy 的新手，我的任务很简单: 对于给定的电子商务网站: 抓取所有网站页面查找产品页面如果 URL 指向产品页面创建项目处理项目以将其存储在数据库中我创建了蜘蛛，但产品只是打印在一个简单的文件中. 我的问题是关于项目结构:如何在蜘蛛中使用项目以及如何将项目发送到管道? 我找不到使用项目和管道的项目的简单示例. 解决 ..

发布时间：2022-01-04 21:07:42 python scrapy scrapy-spider scrapy-pipeline Python

加速网络爬虫

我正在使用 scrapy 使用非常简单的网页抓取工具抓取 23770 个网页.我对scrapy甚至python都很陌生，但设法编写了一个蜘蛛来完成这项工作.然而，它真的很慢(爬取 23770 个页面需要大约 28 小时). 我查看了 scrapy 网页、邮件列表和 stackoverflow，但我似乎找不到编写初学者可以理解的快速爬虫的通用建议.也许我的问题不是蜘蛛本身，而是我运行它的方式. ..

发布时间：2022-01-04 21:07:15 python performance web-scraping scrapy scrapy-spider Python

带有scrapy的多个嵌套请求

为了研究项目，我尝试在 www.flightradar24.com 网站上删除一些飞机时刻表信息. 我想要获取的 json 文件的层次结构是这样的: 对象 ID- 国家- 关联- 名称- 机场- 机场 0- code_total- 关联- 纬度- 隆- 名称- 日程- ...- ...- 机场 1- code_total- 关联- 纬度- 隆- 名称- 日程- ...- ... Coun ..

发布时间：2022-01-04 20:57:07 nested scrapy scrapy-spider 其他开发

scrapy 使用 CrawlerProcess.crawl() 从脚本中将 custom_settings 传递给蜘蛛

我正在尝试通过脚本以编程方式调用蜘蛛.我无法使用 CrawlerProcess 通过构造函数覆盖设置.让我用默认的爬虫来说明这一点，它用于从官方 scrapy 站点抓取引号(官方scrapy引用示例蜘蛛). class QuotesSpider(蜘蛛):名称 = "引用"def __init__(self, somestring, *args, **kwargs):super(QuotesSpi ..

发布时间：2022-01-04 20:55:17 python-3.x web-scraping scrapy scrapy-spider scrapinghub 其他开发

爬虫蜘蛛中的多重继承

是否可以创建一个从两个基本蜘蛛(即 SitemapSpider 和 CrawlSpider)继承功能的蜘蛛? 我一直在尝试从各个站点抓取数据，并意识到并非所有站点都列出了网站上的每个页面，因此需要使用 CrawlSpider.但是 CrawlSpider 浏览了很多垃圾页面，有点矫枉过正. 我想做的是这样的: 启动作为 SitemapSpider 子类的我的 Spider 并传递 ..

发布时间：2022-01-04 20:52:17 python regex scrapy multiple-inheritance scrapy-spider Python

在scrapy的蜘蛛的start_urls列表中给出的每个url的单独输出文件

我想为我在蜘蛛的 start_urls 中设置的每个 url 创建单独的输出文件，或者想以某种方式拆分输出文件以明智的 url 开始. 以下是我的蜘蛛的start_urls start_urls = ['http://www.dmoz.org/Arts/', 'http://www.dmoz.org/Business/', 'http://www.dmoz.org/电脑/'] 我想创建单 ..

发布时间：2022-01-04 20:51:01 python web-scraping scrapy scrapy-spider Python

顺序运行多个蜘蛛

类 Myspider1#做一点事....类 Myspider2#做一点事... 以上是我的spider.py文件的架构.我试图先运行 Myspider1，然后根据某些条件多次运行 Myspider2.我怎么能这样做???有小费吗? configure_logging()跑步者 = CrawlerRunner()定义抓取():yield runner.crawl(Myspider1,arg... ..

发布时间：2022-01-04 20:46:56 python scrapy web-crawler scrapy-spider Python

Scrapy 抓取下一页

我有这个用于scrapy框架的代码: # -*- 编码:utf-8 -*-导入scrapy从scrapy.contrib.spiders 导入规则从scrapy.linkextractors 导入LinkExtractor从 lxml 导入 html类 Scrapy1Spider(scrapy.Spider):名称 = "scrapy1"allowed_domains = ["sfbay.cra ..

发布时间：2022-01-04 20:46:47 python scrapy lxml scrapy-spider Python

从scrapy导出csv文件(不是通过命令行)

我成功地尝试从命令行将我的项目导出到 csv 文件中，例如: scrapy crawl spiderName -o filename.csv 我的问题是:在代码中执行相同操作的最简单解决方案是什么?我需要这个，因为我从另一个文件中提取文件名.结束场景应该是，我称之为 scrapy crawl spiderName 并将项目写入 filename.csv 解决方案为什么不使用项目管 ..

发布时间：2022-01-04 20:45:11 python csv scrapy export-to-csv scrapy-spider Python

通过 .txt 文件向 Scrapy Spider 传递要抓取的 URL 列表

我对 Python 有点陌生，对 Scrapy 也很陌生. 我已经设置了一个蜘蛛来抓取和提取我需要的所有信息.但是，我需要将 URL 的 .txt 文件传递给 start_urls 变量. 例如: class LinkChecker(BaseSpider):名称 = '链接检查器'start_urls = [] #这里我希望列表开始通过命令行从文本文件中抓取 url 列表. 我 ..

发布时间：2021-12-17 14:20:53 python web-scraping scrapy command-line-arguments scrapy-spider Python

无法摆脱 csv 输出中的空白行

我在 python scrapy 中编写了一个非常小的脚本来解析在来自黄页网站的多个页面上显示的姓名、街道和电话号码.当我运行我的脚本时，我发现它运行顺利.但是，我遇到的唯一问题是在 csv 输出中抓取数据的方式.它始终是两行之间的线(行)间隙.我的意思是:数据每隔一行打印一次.看到下面的图片你就会明白我的意思.如果不是scrapy，我本可以使用[newline=''].但是，不幸的是，我在这里完 ..

发布时间：2021-12-17 14:05:22 python-3.x csv web-scraping scrapy scrapy-spider 其他开发

从 json 脚本输出中抓取

我在 python 脚本中运行 scrapy def setup_crawler(domain):dispatcher.connect(stop_reactor, 信号=signals.spider_closed)蜘蛛 = ArgosSpider(域=域)设置 = get_project_settings()爬虫 = 爬虫(设置)crawler.configure()crawler.crawl( ..

发布时间：2021-12-17 14:00:13 python json web-scraping scrapy scrapy-spider Python

使用多个解析创建 Scrapy 项目数组

我正在使用 Scrapy 抓取列表.我的脚本首先使用 parse_node 解析列表 URL，然后使用 parse_listing 解析每个列表，对于每个列表，它使用 parse_agent.我想创建一个数组，该数组通过列表和列表的代理进行scrapy 解析，并为每个新列表进行重置. 这是我的解析脚本: def parse_node(self,response,node):产量请求('列 ..

发布时间：2021-11-18 04:19:57 python arrays scrapy scrapy-spider Python

在 init 上使用 scrapy 管道中的参数

我有一个scrapy pipelines.py，我想获取给定的参数.在我的 spider.py 中它完美运行: class MySpider( CrawlSpider ):def __init__(self, host='', domain_id='', *args, **kwargs):super(MySpider, self).__init__(*args, **kwargs)打印用户 ID ..

发布时间：2021-11-17 05:24:55 python web-scraping arguments scrapy scrapy-spider Python

在 scrapy.Request 中添加 dont_filter=True 参数如何使我的解析方法起作用?

这是一个简单的爬虫导入scrapy类 ExampleSpider(scrapy.Spider):名称 = "dmoz"allowed_domains = ["https://www.dmoz.org"]start_urls = ('https://www.dmoz.org/')定义解析(自我，响应):产生scrapy.Request(self.start_urls[0],callback=se ..

发布时间：2021-09-24 18:48:29 web-scraping scrapy scrapy-spider 其他开发

使用 Selenium 抓取 iframe

我想抓取网站中的广告，但其中很多都是动态的，而且是 DOM 对象.例如在这个片段我可以通过 Selenium 获取 iframe 标签，但我不能再进一步了.我认为这是因为 XPATH.在这种情况下，iframe 内的 XPATH 是 /html，与主页相同. 这是使用的代码行: element = WebDriverWait(self.driver,20).until(EC.p ..

发布时间：2021-09-22 20:29:11 selenium web-scraping scrapy web-crawler scrapy-spider 其他开发

无法获得正确的 Xpath

我正在尝试使用通用 xpath 从购物小部件中提取所有产品链接和图像链接. 这是网站:http://www.stopitrightnow.com/ 这是我拥有的 xpath: xpath('.//*[@class="shopthepost-widget"]/a/@href').extract() 我原以为这会拉出所有链接，但它什么也没做. 以下是widget源码的开头供参考. ..

发布时间：2021-07-17 18:37:25 xml xpath web-crawler scrapy scrapy-spider 其他开发

无法使用scrapy框架307重定向错误抓取myntra API数据

以下是蜘蛛代码: 导入scrapy类 MyntraSpider(scrapy.Spider):自定义设置 = {'HTTPCACHE_ENABLED':错误，'dont_redirect':对，#'handle_httpstatus_list':[302,307]，#'CRAWLERA_ENABLED':错误，'USER_AGENT': 'Mozilla/5.0 (Windows NT 6.1; ..

发布时间：2021-07-17 18:37:17 python scrapy scrapy-spider scrapinghub http-status-code-307 Python

scrapy-spider相关内容