scrapy-spider相关内容
导入scrapy从 imdbscrape.items 导入 MovieItem类电影蜘蛛(scrapy.Spider):名称 = '电影'allowed_domains = ['imdb.com']start_urls = ['https://www.imdb.com/search/title?year=2017,2018&title_type=feature&sort=moviemeter,as
..
我的 start_urls 列表中有将近 300 个 url,但是scrapy 只草绘了大约 200 个 url.但并非所有这些列出的网址.我不知道为什么?我该如何处理.我必须从网站上潦草地写下更多项目. 另一个我不明白的问题是:scrapy 完成后如何查看日志错误?从终端或我必须编写代码才能查看日志错误.我认为默认情况下启用日志. 感谢您的回答. 更新: 输出如下.我不知
..
我是python和scrapy的新手.我按照教程并尝试抓取几个网页.我使用了 tutorial 中的代码并替换了 URL - http://www.city-data.com/advanced/search.php#body?fips=0&csize=a&sc=2&sd=0&states=ALL&near=&nam_crit1=6914&b6914=MIN&e6914=MAX&i691
..
这是我上一个问题的后续 我安装了 splash 和 scrapy-splash. 并且还遵循了说明scrapy-splash. 我编辑了我的代码如下: 导入scrapy从scrapy_splash 导入SplashRequest类 CityDataSpider(scrapy.Spider):名称 = "城市数据"def start_requests(self):网址 = ['htt
..
问题 我的蜘蛛依赖于一个 .txt 文件,该文件包含蜘蛛访问的 URL.我将该文件放在蜘蛛代码所在的同一目录中,以及它之前的每个目录中(Hail Marry 方法);最终结果是这样的: 回溯(最近一次调用最后一次):文件“/usr/local/lib/python2.7/site-packages/scrapy/core/engine.py",第 127 行,在 _next_request
..
下面是我的代码- 导入scrapy从scrapy.http导入请求类歌词获取(scrapy.Spider):name = "lyricsFetch"allowed_domains = ["metrolyrics.com"]打印 "\n输入您想要歌词的歌曲的艺术家姓名.如果可能,尽量减少拼写错误."艺术家姓名 = raw_input('>')打印 "\n现在是主要部分.现在输入歌曲本身的名称.再次
..
我是编程新手,我正在尝试使用scrapy教程学习scrapy:http://doc.scrapy.org/en/latest/intro/tutorial.html 所以我运行了“scrapy crawl dmoz"命令并得到了这个错误: 2015-07-14 16:11:02 [scrapy] INFO:Scrapy 1.0.1 开始(机器人:教程)2015-07-14 16:11:02
..
操作系统:Ubuntu 16.04堆栈 - Scrapy 1.0.3 + Selenium我对scrapy很陌生,这听起来可能很基本,但是在我的蜘蛛中,只有“init"正在被执行.之后的任何代码/函数都不会被调用,蜘蛛就会停止. class CancerForumSpider(scrapy.Spider):name = "mainpage_spider"allowed_domains = ["c
..
我有一个 (id,url) 形式的元组列表我需要从一个 url 列表中抓取一个产品,当这些产品被抓取时,我需要将它们存储在它们的 id 下的数据库中. 问题是我无法理解如何将 id 传递给解析函数,以便我可以在他们的 id 下存储抓取的项目. 解决方案 在 start_requests() 并在 meta: class MySpider(Spider):映射 = [(1, 'my_
..
有一些带有 [] 的 URL,比如 http://www.website.com/CN.html?value_ids[]=33&value_ids[]=5007 但是当我尝试使用 Scrapy 抓取此 URL 时,它会向此 URL 发出请求 http://www.website.com/CN.html?value_ids%5B%5D=33&value_ids%5B%5D=5007 如何强制
..
我可以使用来自 wiki 的以下配方在 python 脚本中运行爬行: fromtwisted.internet 进口反应堆从scrapy.crawler 导入爬虫从scrapy导入日志,信号从 testspiders.spiders.followall 导入 FollowAllSpider从 scrapy.utils.project 导入 get_project_settings蜘蛛 = Fo
..
我一直在搜索 Scrapy 文档,寻找一种方法来限制我的蜘蛛允许发出的请求数量.在开发过程中,我不想坐在这里等待我的蜘蛛完成整个爬行,即使爬行非常专注,它们仍然需要很长时间. 我希望能够说,“在向网站发送 x 个请求后,我正在抓取停止生成新请求." 在我尝试提出自己的解决方案之前,我想知道是否有我可能错过的设置或使用框架的其他方法. 我正在考虑实现一个下载器中间件,它可以跟踪正在
..
我在 Windows 7 的 python 2.7 环境中安装了 Scrapy,但是当我尝试使用 scrapy startproject newProject 启动一个新的 Scrapy 项目时,命令提示符会显示此消息 'scrapy' 不被识别为内部或外部命令,可运行的程序或批处理文件. 注意: 我也有 python 3.5,但没有scrapy 这个问题与这个不重复 解决方案
..
我正在开展一个课堂项目,并试图获取 2016 年之前的所有 IMDB 电影数据(标题、预算等).我采用了 https://github.com/alexwhb/IMDB-spider/blob/master/tutorial/spiders/spider.py. 我的想法是:从 i in range(1874,2016)(因为 1874 是 http 上显示的最早年份)://www.imdb
..
我在 python 的 scrapy 中编写了一个脚本,通过 get_proxies() 方法使用新生成的代理中的任何一个来发出代理请求.我使用 requests 模块来获取代理,以便在脚本中重用它们.然而,问题是我的脚本选择使用的代理可能并不总是好的,所以有时它不会获取有效的响应. 如何让我的脚本不断尝试使用不同的代理,直到得到有效响应? 到目前为止我的脚本: 导入scrapy随机
..
我正在使用 scrapy 使用非常简单的网页抓取工具抓取 23770 个网页.我对scrapy甚至python都很陌生,但设法编写了一个完成这项工作的蜘蛛.然而,它真的很慢(爬取 23770 个页面需要大约 28 小时). 我查看了 scrapy 网页、邮件列表和 stackoverflow,但我似乎找不到关于编写初学者可以理解的快速爬虫的通用建议.也许我的问题不是蜘蛛本身,而是我运行它的方
..
scrapy shell http://www.zara.com/us 返回正确的200码 2017-01-05 18:34:20 [scrapy.utils.log]信息:Scrapy 1.3.0已启动(bot:zara)2017-01-05 18:34:20 [scrapy.utils.log]信息:覆盖的设置:{'NEWSPIDER_MODULE':'zara.spiders','
..
该网站确实具有隐藏的身份验证令牌,但 我的代码,是从其他人以前的尝试中总结出来的: 该网站确实具有隐藏的身份验证令牌,但是[docs] [1]似乎建议我不需要在此处覆盖默认值,而只需要传递用户名和密码即可. 在“网络"选项卡中,我确实注意到,除了发布身份验证令牌外,还有许多Cookie.不知道我是否必须在那里做任何事情. 我的代码,是从其他人以前的尝试中总结出来的: 导入scrap
..
我正在用Scrapy抓取列表.我的脚本首先使用 parse_node 解析列表网址,然后使用 parse_listing 解析每个列表,对于每个列表,它使用 parse_agent .我想创建一个数组,该数组通过列表和列表的代理程序的可疑解析建立,并为每个新列表重置. 这是我的解析脚本: def parse_node(self,response,node):产生请求("LISTING L
..
我正在尝试使用Ajax从站点获取数据.页面加载,然后Javascript请求内容.有关详情,请参见此页面: https://www.tele2.no/mobiltelefon.aspx 问题是,当我尝试通过调用此url来模拟此过程时: https://www.tele2.no/Services/Webshop/FilterService.svc/ApplyPhoneFilters 我收到4
..