scrapy-spider相关内容
我有一个scrapy pipelines.py,我想得到给定的参数.在我的 spider.py 中,它运行良好: 类 MySpider(CrawlSpider):def __init__(self, host='', domain_id='', *args, **kwargs):super(MySpider, self).__init__(*args, **kwargs)打印用户 ID...
..
我尝试通过 Scrapy 抓取 Amazon.但我有这个错误 调试:重试 (失败 1 次):503 服务不可
..
我是 scrapy 的新手,我的任务很简单: 对于给定的电子商务网站: 抓取所有网站页面 查找产品页面 如果 URL 指向产品页面 创建项目 处理项目以将其存储在数据库中 我创建了蜘蛛,但产品只是打印在一个简单的文件中. 我的问题是关于项目结构:如何在蜘蛛中使用项目以及如何将项目发送到管道? 我找不到使用项目和管道的项目的简单示例. 解决
..
我正在使用 scrapy 使用非常简单的网页抓取工具抓取 23770 个网页.我对scrapy甚至python都很陌生,但设法编写了一个蜘蛛来完成这项工作.然而,它真的很慢(爬取 23770 个页面需要大约 28 小时). 我查看了 scrapy 网页、邮件列表和 stackoverflow,但我似乎找不到编写初学者可以理解的快速爬虫的通用建议.也许我的问题不是蜘蛛本身,而是我运行它的方式.
..
为了研究项目,我尝试在 www.flightradar24.com 网站上删除一些飞机时刻表信息. 我想要获取的 json 文件的层次结构是这样的: 对象 ID- 国家- 关联- 名称- 机场- 机场 0- code_total- 关联- 纬度- 隆- 名称- 日程- ...- ...- 机场 1- code_total- 关联- 纬度- 隆- 名称- 日程- ...- ... Coun
..
我正在尝试通过脚本以编程方式调用蜘蛛.我无法使用 CrawlerProcess 通过构造函数覆盖设置.让我用默认的爬虫来说明这一点,它用于从官方 scrapy 站点抓取引号(官方scrapy引用示例蜘蛛). class QuotesSpider(蜘蛛):名称 = "引用"def __init__(self, somestring, *args, **kwargs):super(QuotesSpi
..
是否可以创建一个从两个基本蜘蛛(即 SitemapSpider 和 CrawlSpider)继承功能的蜘蛛? 我一直在尝试从各个站点抓取数据,并意识到并非所有站点都列出了网站上的每个页面,因此需要使用 CrawlSpider.但是 CrawlSpider 浏览了很多垃圾页面,有点矫枉过正. 我想做的是这样的: 启动作为 SitemapSpider 子类的我的 Spider 并传递
..
我想为我在蜘蛛的 start_urls 中设置的每个 url 创建单独的输出文件,或者想以某种方式拆分输出文件以明智的 url 开始. 以下是我的蜘蛛的start_urls start_urls = ['http://www.dmoz.org/Arts/', 'http://www.dmoz.org/Business/', 'http://www.dmoz.org/电脑/'] 我想创建单
..
类 Myspider1#做一点事....类 Myspider2#做一点事... 以上是我的spider.py文件的架构.我试图先运行 Myspider1,然后根据某些条件多次运行 Myspider2.我怎么能这样做???有小费吗? configure_logging()跑步者 = CrawlerRunner()定义抓取():yield runner.crawl(Myspider1,arg...
..
我有这个用于scrapy框架的代码: # -*- 编码:utf-8 -*-导入scrapy从scrapy.contrib.spiders 导入规则从scrapy.linkextractors 导入LinkExtractor从 lxml 导入 html类 Scrapy1Spider(scrapy.Spider):名称 = "scrapy1"allowed_domains = ["sfbay.cra
..
我成功地尝试从命令行将我的项目导出到 csv 文件中,例如: scrapy crawl spiderName -o filename.csv 我的问题是:在代码中执行相同操作的最简单解决方案是什么?我需要这个,因为我从另一个文件中提取文件名.结束场景应该是,我称之为 scrapy crawl spiderName 并将项目写入 filename.csv 解决方案 为什么不使用项目管
..
我对 Python 有点陌生,对 Scrapy 也很陌生. 我已经设置了一个蜘蛛来抓取和提取我需要的所有信息.但是,我需要将 URL 的 .txt 文件传递给 start_urls 变量. 例如: class LinkChecker(BaseSpider):名称 = '链接检查器'start_urls = [] #这里我希望列表开始通过命令行从文本文件中抓取 url 列表. 我
..
我在 python scrapy 中编写了一个非常小的脚本来解析在来自黄页网站的多个页面上显示的姓名、街道和电话号码.当我运行我的脚本时,我发现它运行顺利.但是,我遇到的唯一问题是在 csv 输出中抓取数据的方式.它始终是两行之间的线(行)间隙.我的意思是:数据每隔一行打印一次.看到下面的图片你就会明白我的意思.如果不是scrapy,我本可以使用[newline=''].但是,不幸的是,我在这里完
..
我在 python 脚本中运行 scrapy def setup_crawler(domain):dispatcher.connect(stop_reactor, 信号=signals.spider_closed)蜘蛛 = ArgosSpider(域=域)设置 = get_project_settings()爬虫 = 爬虫(设置)crawler.configure()crawler.crawl(
..
我正在使用 Scrapy 抓取列表.我的脚本首先使用 parse_node 解析列表 URL,然后使用 parse_listing 解析每个列表,对于每个列表,它使用 parse_agent.我想创建一个数组,该数组通过列表和列表的代理进行scrapy 解析,并为每个新列表进行重置. 这是我的解析脚本: def parse_node(self,response,node):产量请求('列
..
我有一个scrapy pipelines.py,我想获取给定的参数.在我的 spider.py 中它完美运行: class MySpider( CrawlSpider ):def __init__(self, host='', domain_id='', *args, **kwargs):super(MySpider, self).__init__(*args, **kwargs)打印用户 ID
..
这是一个简单的爬虫 导入scrapy类 ExampleSpider(scrapy.Spider):名称 = "dmoz"allowed_domains = ["https://www.dmoz.org"]start_urls = ('https://www.dmoz.org/')定义解析(自我,响应):产生scrapy.Request(self.start_urls[0],callback=se
..
我想抓取网站中的广告,但其中很多都是动态的,而且是 DOM 对象.例如在这个片段 我可以通过 Selenium 获取 iframe 标签,但我不能再进一步了.我认为这是因为 XPATH.在这种情况下,iframe 内 的 XPATH 是 /html,与主页 相同. 这是使用的代码行: element = WebDriverWait(self.driver,20).until(EC.p
..
我正在尝试使用通用 xpath 从购物小部件中提取所有产品链接和图像链接. 这是网站:http://www.stopitrightnow.com/ 这是我拥有的 xpath: xpath('.//*[@class="shopthepost-widget"]/a/@href').extract() 我原以为这会拉出所有链接,但它什么也没做. 以下是widget源码的开头供参考.
..
以下是蜘蛛代码: 导入scrapy类 MyntraSpider(scrapy.Spider):自定义设置 = {'HTTPCACHE_ENABLED':错误,'dont_redirect':对,#'handle_httpstatus_list':[302,307],#'CRAWLERA_ENABLED':错误,'USER_AGENT': 'Mozilla/5.0 (Windows NT 6.1;
..