scrapy-spider 第7页 - IT屋-程序员软件开发技术分享社区

IMDB 网络爬虫 - Scrapy - Python

导入scrapy从 imdbscrape.items 导入 MovieItem类电影蜘蛛(scrapy.Spider):名称 = '电影'allowed_domains = ['imdb.com']start_urls = ['https://www.imdb.com/search/title?year=2017,2018&title_type=feature&sort=moviemeter,as ..

发布时间：2021-06-28 19:04:28 python-3.x scrapy python-3.6 scrapy-spider 其他开发

为什么我的scrapy 没有使用start_urls 列表中的所有url?

我的 start_urls 列表中有将近 300 个 url，但是scrapy 只草绘了大约 200 个 url.但并非所有这些列出的网址.我不知道为什么?我该如何处理.我必须从网站上潦草地写下更多项目. 另一个我不明白的问题是:scrapy 完成后如何查看日志错误?从终端或我必须编写代码才能查看日志错误.我认为默认情况下启用日志. 感谢您的回答. 更新: 输出如下.我不知 ..

发布时间：2021-06-26 20:27:53 python-2.7 scrapy scrapy-spider scrapy-shell 其他开发

使用scrapy时访问网页

我是python和scrapy的新手.我按照教程并尝试抓取几个网页.我使用了 tutorial 中的代码并替换了 URL - http://www.city-data.com/advanced/search.php#body?fips=0&csize=a&sc=2&sd=0&states=ALL&near=&nam_crit1=6914&b6914=MIN&e6914=MAX&i691 ..

发布时间：2021-06-26 20:21:58 python python-2.7 web-scraping scrapy scrapy-spider Python

用于渲染 javascript 的 scrapy-splash 用法

这是我上一个问题的后续我安装了 splash 和 scrapy-splash. 并且还遵循了说明scrapy-splash. 我编辑了我的代码如下: 导入scrapy从scrapy_splash 导入SplashRequest类 CityDataSpider(scrapy.Spider):名称 = "城市数据"def start_requests(self):网址 = ['htt ..

发布时间：2021-06-26 20:21:51 javascript python python-2.7 scrapy scrapy-spider 前端开发

部署到 Scraping Hub 和蜘蛛运行时找不到 URL 文本文件

问题我的蜘蛛依赖于一个 .txt 文件，该文件包含蜘蛛访问的 URL.我将该文件放在蜘蛛代码所在的同一目录中，以及它之前的每个目录中(Hail Marry 方法)；最终结果是这样的: 回溯(最近一次调用最后一次):文件“/usr/local/lib/python2.7/site-packages/scrapy/core/engine.py"，第 127 行，在 _next_request ..

发布时间：2021-06-26 20:04:16 python-2.7 scrapy scrapy-spider 其他开发

刮擦“请求 url 中缺少方案"；

下面是我的代码- 导入scrapy从scrapy.http导入请求类歌词获取(scrapy.Spider):name = "lyricsFetch"allowed_domains = ["metrolyrics.com"]打印 "\n输入您想要歌词的歌曲的艺术家姓名.如果可能，尽量减少拼写错误."艺术家姓名 = raw_input('>')打印 "\n现在是主要部分.现在输入歌曲本身的名称.再次 ..

发布时间：2021-06-26 19:51:00 python-2.7 scrapy response scrapy-spider 其他开发

在scrapy教程中扭曲了严重的未处理错误

我是编程新手，我正在尝试使用scrapy教程学习scrapy:http://doc.scrapy.org/en/latest/intro/tutorial.html 所以我运行了“scrapy crawl dmoz"命令并得到了这个错误: 2015-07-14 16:11:02 [scrapy] INFO:Scrapy 1.0.1 开始(机器人:教程)2015-07-14 16:11:02 ..

发布时间：2021-06-26 19:38:10 python-2.7 scrapy scrapy-spider 其他开发

Scrapy 在“init"之后不调用任何其他函数；

操作系统:Ubuntu 16.04堆栈 - Scrapy 1.0.3 + Selenium我对scrapy很陌生，这听起来可能很基本，但是在我的蜘蛛中，只有“init"正在被执行.之后的任何代码/函数都不会被调用，蜘蛛就会停止. class CancerForumSpider(scrapy.Spider):name = "mainpage_spider"allowed_domains = ["c ..

发布时间：2021-06-26 19:32:26 python python-2.7 selenium scrapy scrapy-spider Python

将额外的值和 url 一起传递给爬虫蜘蛛

我有一个 (id,url) 形式的元组列表我需要从一个 url 列表中抓取一个产品，当这些产品被抓取时，我需要将它们存储在它们的 id 下的数据库中. 问题是我无法理解如何将 id 传递给解析函数，以便我可以在他们的 id 下存储抓取的项目. 解决方案在 start_requests() 并在 meta: class MySpider(Spider):映射 = [(1, 'my_ ..

发布时间：2021-06-26 19:29:25 python python-2.7 web-scraping scrapy scrapy-spider Python

强制 Python Scrapy 不编码 URL

有一些带有 [] 的 URL，比如 http://www.website.com/CN.html?value_ids[]=33&value_ids[]=5007 但是当我尝试使用 Scrapy 抓取此 URL 时，它会向此 URL 发出请求 http://www.website.com/CN.html?value_ids%5B%5D=33&value_ids%5B%5D=5007 如何强制 ..

发布时间：2021-06-26 19:07:47 python python-2.7 scrapy scrapy-spider Python

在python脚本中将参数传递给scrapy spider

我可以使用来自 wiki 的以下配方在 python 脚本中运行爬行: fromtwisted.internet 进口反应堆从scrapy.crawler 导入爬虫从scrapy导入日志，信号从 testspiders.spiders.followall 导入 FollowAllSpider从 scrapy.utils.project 导入 get_project_settings蜘蛛 = Fo ..

发布时间：2021-06-26 18:57:08 python python-2.7 web-scraping scrapy scrapy-spider Python

用于测试的 Scrapy 限制请求

我一直在搜索 Scrapy 文档，寻找一种方法来限制我的蜘蛛允许发出的请求数量.在开发过程中，我不想坐在这里等待我的蜘蛛完成整个爬行，即使爬行非常专注，它们仍然需要很长时间. 我希望能够说，“在向网站发送 x 个请求后，我正在抓取停止生成新请求." 在我尝试提出自己的解决方案之前，我想知道是否有我可能错过的设置或使用框架的其他方法. 我正在考虑实现一个下载器中间件，它可以跟踪正在 ..

发布时间：2021-06-26 18:50:35 python python-2.7 web-scraping scrapy scrapy-spider Python

已安装 Scrapy，但无法在命令行中识别

我在 Windows 7 的 python 2.7 环境中安装了 Scrapy，但是当我尝试使用 scrapy startproject newProject 启动一个新的 Scrapy 项目时，命令提示符会显示此消息 'scrapy' 不被识别为内部或外部命令，可运行的程序或批处理文件. 注意: 我也有 python 3.5，但没有scrapy 这个问题与这个不重复解决方案 ..

发布时间：2021-06-26 18:50:23 python python-2.7 scrapy scrapy-spider Python

IMDB scrapy 获取所有电影数据

我正在开展一个课堂项目，并试图获取 2016 年之前的所有 IMDB 电影数据(标题、预算等).我采用了 https://github.com/alexwhb/IMDB-spider/blob/master/tutorial/spiders/spider.py. 我的想法是:从 i in range(1874,2016)(因为 1874 是 http 上显示的最早年份)://www.imdb ..

发布时间：2021-06-26 18:47:01 python python-2.7 scrapy scrapy-spider Python

无法一一使用代理，直到有有效响应

我在 python 的 scrapy 中编写了一个脚本，通过 get_proxies() 方法使用新生成的代理中的任何一个来发出代理请求.我使用 requests 模块来获取代理，以便在脚本中重用它们.然而，问题是我的脚本选择使用的代理可能并不总是好的，所以有时它不会获取有效的响应. 如何让我的脚本不断尝试使用不同的代理，直到得到有效响应? 到目前为止我的脚本: 导入scrapy随机 ..

发布时间：2021-06-22 20:32:06 python web-scraping proxy scrapy scrapy-spider Python

加速网页刮刀

我正在使用 scrapy 使用非常简单的网页抓取工具抓取 23770 个网页.我对scrapy甚至python都很陌生，但设法编写了一个完成这项工作的蜘蛛.然而，它真的很慢(爬取 23770 个页面需要大约 28 小时). 我查看了 scrapy 网页、邮件列表和 stackoverflow，但我似乎找不到关于编写初学者可以理解的快速爬虫的通用建议.也许我的问题不是蜘蛛本身，而是我运行它的方 ..

发布时间：2021-06-15 19:17:11 python performance web-scraping scrapy scrapy-spider Python

Scrapy Shell有效，但实际脚本返回404错误

scrapy shell http://www.zara.com/us 返回正确的200码 2017-01-05 18:34:20 [scrapy.utils.log]信息:Scrapy 1.3.0已启动(bot:zara)2017-01-05 18:34:20 [scrapy.utils.log]信息:覆盖的设置:{'NEWSPIDER_MODULE':'zara.spiders'，' ..

发布时间：2021-05-15 19:10:54 python-2.7 scrapy http-status-code-404 scrapy-spider 其他开发

Scrapy登录失败

该网站确实具有隐藏的身份验证令牌，但我的代码，是从其他人以前的尝试中总结出来的: 该网站确实具有隐藏的身份验证令牌，但是[docs] [1]似乎建议我不需要在此处覆盖默认值，而只需要传递用户名和密码即可. 在“网络"选项卡中，我确实注意到，除了发布身份验证令牌外，还有许多Cookie.不知道我是否必须在那里做任何事情. 我的代码，是从其他人以前的尝试中总结出来的: 导入scrap ..

发布时间：2021-04-29 20:33:53 python debugging web-scraping scrapy scrapy-spider Python

创建具有多个解析的项目的Scrapy数组

我正在用Scrapy抓取列表.我的脚本首先使用 parse_node 解析列表网址，然后使用 parse_listing 解析每个列表，对于每个列表，它使用 parse_agent .我想创建一个数组，该数组通过列表和列表的代理程序的可疑解析建立，并为每个新列表重置. 这是我的解析脚本: def parse_node(self，response，node):产生请求("LISTING L ..

发布时间：2021-04-09 19:45:18 python arrays scrapy scrapy-spider Python

Scrapy模拟XHR请求-返回400

我正在尝试使用Ajax从站点获取数据.页面加载，然后Javascript请求内容.有关详情，请参见此页面: https://www.tele2.no/mobiltelefon.aspx 问题是，当我尝试通过调用此url来模拟此过程时: https://www.tele2.no/Services/Webshop/FilterService.svc/ApplyPhoneFilters 我收到4 ..

发布时间：2021-04-02 19:38:27 python ajax web-scraping scrapy scrapy-spider 前端开发

scrapy-spider相关内容