scrapy-spider相关内容

为什么我的scrapy 没有使用start_urls 列表中的所有url?

我的 start_urls 列表中有将近 300 个 url,但是scrapy 只草绘了大约 200 个 url.但并非所有这些列出的网址.我不知道为什么?我该如何处理.我必须从网站上潦草地写下更多项目. 另一个我不明白的问题是:scrapy 完成后如何查看日志错误?从终端或我必须编写代码才能查看日志错误.我认为默认情况下启用日志. 感谢您的回答. 更新: 输出如下.我不知 ..
发布时间:2021-06-26 20:27:53 其他开发

部署到 Scraping Hub 和蜘蛛运行时找不到 URL 文本文件

问题 我的蜘蛛依赖于一个 .txt 文件,该文件包含蜘蛛访问的 URL.我将该文件放在蜘蛛代码所在的同一目录中,以及它之前的每个目录中(Hail Marry 方法);最终结果是这样的: 回溯(最近一次调用最后一次):文件“/usr/local/lib/python2.7/site-packages/scrapy/core/engine.py",第 127 行,在 _next_request ..
发布时间:2021-06-26 20:04:16 其他开发

刮擦“请求 url 中缺少方案";

下面是我的代码- 导入scrapy从scrapy.http导入请求类歌词获取(scrapy.Spider):name = "lyricsFetch"allowed_domains = ["metrolyrics.com"]打印 "\n输入您想要歌词的歌曲的艺术家姓名.如果可能,尽量减少拼写错误."艺术家姓名 = raw_input('>')打印 "\n现在是主要部分.现在输入歌曲本身的名称.再次 ..
发布时间:2021-06-26 19:51:00 其他开发

将额外的值和 url 一起传递给爬虫蜘蛛

我有一个 (id,url) 形式的元组列表我需要从一个 url 列表中抓取一个产品,当这些产品被抓取时,我需要将它们存储在它们的 id 下的数据库中. 问题是我无法理解如何将 id 传递给解析函数,以便我可以在他们的 id 下存储抓取的项目. 解决方案 在 start_requests() 并在 meta: class MySpider(Spider):映射 = [(1, 'my_ ..
发布时间:2021-06-26 19:29:25 Python

强制 Python Scrapy 不编码 URL

有一些带有 [] 的 URL,比如 http://www.website.com/CN.html?value_ids[]=33&value_ids[]=5007 但是当我尝试使用 Scrapy 抓取此 URL 时,它会向此 URL 发出请求 http://www.website.com/CN.html?value_ids%5B%5D=33&value_ids%5B%5D=5007 如何强制 ..
发布时间:2021-06-26 19:07:47 Python

用于测试的 Scrapy 限制请求

我一直在搜索 Scrapy 文档,寻找一种方法来限制我的蜘蛛允许发出的请求数量.在开发过程中,我不想坐在这里等待我的蜘蛛完成整个爬行,即使爬行非常专注,它们仍然需要很长时间. 我希望能够说,“在向网站发送 x 个请求后,我正在抓取停止生成新请求." 在我尝试提出自己的解决方案之前,我想知道是否有我可能错过的设置或使用框架的其他方法. 我正在考虑实现一个下载器中间件,它可以跟踪正在 ..
发布时间:2021-06-26 18:50:35 Python

已安装 Scrapy,但无法在命令行中识别

我在 Windows 7 的 python 2.7 环境中安装了 Scrapy,但是当我尝试使用 scrapy startproject newProject 启动一个新的 Scrapy 项目时,命令提示符会显示此消息 'scrapy' 不被识别为内部或外部命令,可运行的程序或批处理文件. 注意: 我也有 python 3.5,但没有scrapy 这个问题与这个不重复 解决方案 ..
发布时间:2021-06-26 18:50:23 Python

IMDB scrapy 获取所有电影数据

我正在开展一个课堂项目,并试图获取 2016 年之前的所有 IMDB 电影数据(标题、预算等).我采用了 https://github.com/alexwhb/IMDB-spider/blob/master/tutorial/spiders/spider.py. 我的想法是:从 i in range(1874,2016)(因为 1874 是 http 上显示的最早年份)://www.imdb ..
发布时间:2021-06-26 18:47:01 Python

无法一一使用代理,直到有有效响应

我在 python 的 scrapy 中编写了一个脚本,通过 get_proxies() 方法使用新生成的代理中的任何一个来发出代理请求.我使用 requests 模块来获取代理,以便在脚本中重用它们.然而,问题是我的脚本选择使用的代理可能并不总是好的,所以有时它不会获取有效的响应. 如何让我的脚本不断尝试使用不同的代理,直到得到有效响应? 到目前为止我的脚本: 导入scrapy随机 ..
发布时间:2021-06-22 20:32:06 Python

加速网页刮刀

我正在使用 scrapy 使用非常简单的网页抓取工具抓取 23770 个网页.我对scrapy甚至python都很陌生,但设法编写了一个完成这项工作的蜘蛛.然而,它真的很慢(爬取 23770 个页面需要大约 28 小时). 我查看了 scrapy 网页、邮件列表和 stackoverflow,但我似乎找不到关于编写初学者可以理解的快速爬虫的通用建议.也许我的问题不是蜘蛛本身,而是我运行它的方 ..
发布时间:2021-06-15 19:17:11 Python

Scrapy登录失败

该网站确实具有隐藏的身份验证令牌,但 我的代码,是从其他人以前的尝试中总结出来的: 该网站确实具有隐藏的身份验证令牌,但是[docs] [1]似乎建议我不需要在此处覆盖默认值,而只需要传递用户名和密码即可. 在“网络"选项卡中,我确实注意到,除了发布身份验证令牌外,还有许多Cookie.不知道我是否必须在那里做任何事情. 我的代码,是从其他人以前的尝试中总结出来的: 导入scrap ..
发布时间:2021-04-29 20:33:53 Python

创建具有多个解析的项目的Scrapy数组

我正在用Scrapy抓取列表.我的脚本首先使用 parse_node 解析列表网址,然后使用 parse_listing 解析每个列表,对于每个列表,它使用 parse_agent .我想创建一个数组,该数组通过列表和列表的代理程序的可疑解析建立,并为每个新列表重置. 这是我的解析脚本: def parse_node(self,response,node):产生请求("LISTING L ..
发布时间:2021-04-09 19:45:18 Python

Scrapy模拟XHR请求-返回400

我正在尝试使用Ajax从站点获取数据.页面加载,然后Javascript请求内容.有关详情,请参见此页面: https://www.tele2.no/mobiltelefon.aspx 问题是,当我尝试通过调用此url来模拟此过程时: https://www.tele2.no/Services/Webshop/FilterService.svc/ApplyPhoneFilters 我收到4 ..
发布时间:2021-04-02 19:38:27 前端开发