scrapy相关内容

如何在Scrapy蜘蛛中获取管道对象

我使用 mongodb 来存储爬取的数据. 现在我想查询数据的最后日期,这样我就可以继续爬取数据,不需要从url列表的开头重新开始.(url,可以由日期确定,例如:/2014-03-22.html) 我只想要一个连接对象来执行数据库操作,这是在管道中. 所以,我想知道如何在蜘蛛中获取管道对象(不是新对象). 或者,任何更好的增量更新解决方案... 提前致谢. 对 ..
发布时间:2022-01-04 20:58:44 Python

迭代python中的字典并剥离空白

我正在使用 Web 抓取框架 Scrapy,但在 Python 方面我有点菜鸟.所以我想知道如何遍历似乎在字典中的所有刮掉的项目并从每个项目中去除空白. 这是我一直在我的项目管道中使用的代码.: 项目信息:信息[信息].lstrip() 但是此代码不起作用,因为我无法单独选择项目.所以我尝试这样做: 用于键、值 item.items():值[1].lstrip() 第二种方法在一定 ..
发布时间:2022-01-04 20:58:38 Python

在scrapy中提取类名

我正在尝试从 trustpilot.com 中删除评级. 是否可以使用scrapy提取类名?我正在尝试抓取由五个单独图像组成的评级,但这些图像位于一个带有评级名称的类中,例如,如果评级为 2 则开始: ... 如果是 3 星,则: ... 那么有没有办法我可以刮掉类 count-2 或 count-3 假设选择器像 .css('.star-rating')? 解决方案 您 ..
发布时间:2022-01-04 20:58:16 Python

如何使用带有 url 和基本身份验证凭据的 scrapy shell?

我想使用 scrapy shell 并测试需要基本身份验证凭据的 url 的响应数据.我试图检查scrapy shell文档,但在那里找不到它. 我尝试使用 scrapy shell 'http://user:pwd@abc.com' 但它没有用.有谁知道我如何实现它? 解决方案 如果你只想使用 shell,你可以这样做: $ scrapy shell 在外壳内: >>从 w3 ..

“NoneType"对象在scrapy\twisted\openssl 中没有属性“_app_data"

在使用scrapy的抓取过程中,我的日志中不时出现一个错误.它似乎没有出现在我的代码中的任何地方,看起来像是在 Twisted\openssl 中的某个东西.任何想法是什么导致了这种情况以及如何摆脱它? 此处的堆栈跟踪: [Launcher,27487/stderr] info_callback 期间出错回溯(最近一次调用最后一次):文件“/opt/webapps/link_crawler ..
发布时间:2022-01-04 20:57:40 Python

带有scrapy的多个嵌套请求

为了研究项目,我尝试在 www.flightradar24.com 网站上删除一些飞机时刻表信息. 我想要获取的 json 文件的层次结构是这样的: 对象 ID- 国家- 关联- 名称- 机场- 机场 0- code_total- 关联- 纬度- 隆- 名称- 日程- ...- ...- 机场 1- code_total- 关联- 纬度- 隆- 名称- 日程- ...- ... Coun ..
发布时间:2022-01-04 20:57:07 其他开发

Scrapy 提取 ld+JSON

如何提取名称和网址? quotes_spiders.py 导入scrapy导入json类 QuotesSpider(scrapy.Spider):名称 = "引用"start_urls = ["http://www.lazada.com.my/shop-power-banks2/?price=1572-1572"]定义解析(自我,响应):data = json.loads(response ..
发布时间:2022-01-04 20:56:40 Python

Python Selenium + Datepicker 点击

我一直在绞尽脑汁想知道像 这样的房间的价格 例如,通过单击第一个可用的(绿色)日期选择器签入输入,然后单击第一个可用的日期选择器签出输入,从而生成最小周期的价格. 我的代码一团糟,所以如果有人可以发布更清晰的代码来实现这一点,我将不胜感激. 我正在使用 Python selenium + scrapy,尽管例如 Java 中的某些东西仍然会有所帮助. 更新: 代码如下: ..
发布时间:2022-01-04 20:56:13 Python

将scrapy项目导出到不同的文件

我正在从 moocs 中抓取这样的评论 一个 从那里我获得了所有课程的详细信息,每个评论本身有 5 个项目和另外 6 个项目. 这是我的课程详情代码: def parse_reviews(self, response):l = ItemLoader(item=MoocsItem(), response=response)l.add_xpath('course_title', '//* ..
发布时间:2022-01-04 20:55:58 Python

无法在scrapy中导入项目

我有一个非常基本的蜘蛛,按照入门指南中的说明进行操作,但由于某种原因,尝试将我的项目导入我的蜘蛛会返回错误.蜘蛛和物品代码如下所示: from scrapy.spider import BaseSpiderfrom scrapy.selector import HtmlXPathSelector从 myProject.items 导入项目类 MyProject(BaseSpider):名称 = ..
发布时间:2022-01-04 20:55:48 Python

Selenium 中的轮换代理

我在带有 Scrapy 的 Firefox 中使用 Selenium webdriver,现在我需要动态更改代理,但到目前为止我在文档中发现的是,当我实例化 webdriver 本身时,我可以在配置文件中指定代理.所以这意味着我不能动态更改代理? 有没有办法做到这一点? 解决方案 selenium 不提供这种功能.一旦启动浏览器,就无法动态更改浏览器首选项/所需功能. 您必须关 ..
发布时间:2022-01-04 20:55:32 Python

scrapy 使用 CrawlerProcess.crawl() 从脚本中将 custom_settings 传递给蜘蛛

我正在尝试通过脚本以编程方式调用蜘蛛.我无法使用 CrawlerProcess 通过构造函数覆盖设置.让我用默认的爬虫来说明这一点,它用于从官方 scrapy 站点抓取引号(官方scrapy引用示例蜘蛛). class QuotesSpider(蜘蛛):名称 = "引用"def __init__(self, somestring, *args, **kwargs):super(QuotesSpi ..

Scrapy:从 HTML 脚本中提取 JSON

我正在尝试从 HTML 脚本中提取(似乎是)JSON 数据.网站上的 HTML 脚本如下所示: $(document).ready(function(){var term = new Verba.Compare.Collections.Terms([{"id":"6436","name":"SUMMER 16","inquiry":true,"ordering":true},{"id":"651 ..
发布时间:2022-01-04 20:54:41 前端开发

无法通过scrapy的表单

我是使用 scrapy 的新手,我正在尝试从房地产网站获取一些信息.该站点有一个带有搜索表单(方法 GET)的主页.我正在尝试转到我的 start_requests (recherche.php) 中的结果页面,并设置我在地址栏中看到的所有 get 参数的 formdata 参数.我也设置了我的饼干,但他也没有工作.. 这是我的蜘蛛: from scrapy.spider import B ..
发布时间:2022-01-04 20:54:11 Python

Scrapy python csv 输出在每行之间有空行

我在生成的 csv 输出文件中每行scrapy 输出之间出现不需要的空行. 我已从 python2 迁移到 python 3,并且使用 Windows 10.因此,我正在为 python3 调整我的 scrapy 项目. 我目前(目前唯一的)问题是,当我将 scrapy 输出写入 CSV 文件时,每行之间有一个空行.这已在此处的几篇文章中突出显示(与 Windows 相关),但我无法找 ..
发布时间:2022-01-04 20:54:00 Python

如何使用无限滚动抓取网站?

我想抓取这个网站.我写了一个蜘蛛,但它只抓取首页,即前 52 项. 我试过这个代码: from scrapy.spider import BaseSpiderfrom scrapy.selector import HtmlXPathSelector从scrapy.http导入请求a=[]从 aqaq.items 导入 aqaqItem导入操作系统导入 urlparse进口AST类aqaqs ..
发布时间:2022-01-04 20:53:23 前端开发