scrapy 第4页 - IT屋-程序员软件开发技术分享社区

使用 Feed Exporter 将项目从 Scrapyd 保存到 Amazon S3

在亚马逊 S3 上使用 Scrapy 相当简单，你设置: FEED_URI = 's3://MYBUCKET/feeds/%(name)s/%(time)s.jl' FEED_FORMAT = 'jsonlines' AWS_ACCESS_KEY_ID = [访问密钥] AWS_SECRET_ACCESS_KEY = [密钥] 一切正常. 但 Scrapyd 似乎覆盖了该设 ..

发布时间：2022-01-04 20:58:58 amazon-s3 scrapy scrapyd 其他开发

如何在Scrapy蜘蛛中获取管道对象

我使用 mongodb 来存储爬取的数据. 现在我想查询数据的最后日期，这样我就可以继续爬取数据，不需要从url列表的开头重新开始.(url，可以由日期确定，例如:/2014-03-22.html) 我只想要一个连接对象来执行数据库操作，这是在管道中. 所以，我想知道如何在蜘蛛中获取管道对象(不是新对象). 或者，任何更好的增量更新解决方案... 提前致谢. 对 ..

发布时间：2022-01-04 20:58:44 python mongodb scrapy Python

迭代python中的字典并剥离空白

我正在使用 Web 抓取框架 Scrapy，但在 Python 方面我有点菜鸟.所以我想知道如何遍历似乎在字典中的所有刮掉的项目并从每个项目中去除空白. 这是我一直在我的项目管道中使用的代码.: 项目信息:信息[信息].lstrip() 但是此代码不起作用，因为我无法单独选择项目.所以我尝试这样做: 用于键、值 item.items():值[1].lstrip() 第二种方法在一定 ..

发布时间：2022-01-04 20:58:38 python dictionary whitespace scrapy Python

错误 403:scrapy 中未处理或不允许 HTTP 状态代码

这是我写的代码，用于抓取 justdial 网站. 导入scrapy从scrapy.http.request导入请求类 JustdialSpider(scrapy.Spider):名称 = 'justdial'# handle_httpstatus_list = [400]# headers={'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) ..

发布时间：2022-01-04 20:58:27 python http scrapy Python

在scrapy中提取类名

我正在尝试从 trustpilot.com 中删除评级. 是否可以使用scrapy提取类名?我正在尝试抓取由五个单独图像组成的评级，但这些图像位于一个带有评级名称的类中，例如，如果评级为 2 则开始: ... 如果是 3 星，则: ... 那么有没有办法我可以刮掉类 count-2 或 count-3 假设选择器像 .css('.star-rating')? 解决方案您 ..

发布时间：2022-01-04 20:58:16 python web-scraping css-selectors scrapy Python

如何使用带有 url 和基本身份验证凭据的 scrapy shell?

我想使用 scrapy shell 并测试需要基本身份验证凭据的 url 的响应数据.我试图检查scrapy shell文档，但在那里找不到它. 我尝试使用 scrapy shell 'http://user:pwd@abc.com' 但它没有用.有谁知道我如何实现它? 解决方案如果你只想使用 shell，你可以这样做: $ scrapy shell 在外壳内: >>从 w3 ..

发布时间：2022-01-04 20:57:53 python-2.7 scrapy web-crawler basic-authentication scrapy-shell 其他开发

“NoneType"对象在scrapy\twisted\openssl 中没有属性“_app_data"

在使用scrapy的抓取过程中，我的日志中不时出现一个错误.它似乎没有出现在我的代码中的任何地方，看起来像是在 Twisted\openssl 中的某个东西.任何想法是什么导致了这种情况以及如何摆脱它? 此处的堆栈跟踪: [Launcher,27487/stderr] info_callback 期间出错回溯(最近一次调用最后一次):文件“/opt/webapps/link_crawler ..

发布时间：2022-01-04 20:57:40 python openssl scrapy twisted pyopenssl Python

为什么 Scrapy 返回一个 Iframe?

我想通过 Python-Scrapy 抓取这个网站> 我试试这个 class Parik(scrapy.Spider):名称 = "ooshop"allowed_domains = ["http://www.ooshop.com/courses-en-ligne/Home.aspx"]def __init__(self, idcrawl=None, proxy=None, *args, **k ..

发布时间：2022-01-04 20:57:30 python iframe web-scraping scrapy web-crawler Python

带有scrapy的多个嵌套请求

为了研究项目，我尝试在 www.flightradar24.com 网站上删除一些飞机时刻表信息. 我想要获取的 json 文件的层次结构是这样的: 对象 ID- 国家- 关联- 名称- 机场- 机场 0- code_total- 关联- 纬度- 隆- 名称- 日程- ...- ...- 机场 1- code_total- 关联- 纬度- 隆- 名称- 日程- ...- ... Coun ..

发布时间：2022-01-04 20:57:07 nested scrapy scrapy-spider 其他开发

Scrapy 提取 ld+JSON

如何提取名称和网址? quotes_spiders.py 导入scrapy导入json类 QuotesSpider(scrapy.Spider):名称 = "引用"start_urls = ["http://www.lazada.com.my/shop-power-banks2/?price=1572-1572"]定义解析(自我，响应):data = json.loads(response ..

发布时间：2022-01-04 20:56:40 python json xpath scrapy Python

Python Selenium + Datepicker 点击

我一直在绞尽脑汁想知道像这样的房间的价格例如，通过单击第一个可用的(绿色)日期选择器签入输入，然后单击第一个可用的日期选择器签出输入，从而生成最小周期的价格. 我的代码一团糟，所以如果有人可以发布更清晰的代码来实现这一点，我将不胜感激. 我正在使用 Python selenium + scrapy，尽管例如 Java 中的某些东西仍然会有所帮助. 更新: 代码如下: ..

发布时间：2022-01-04 20:56:13 python selenium datepicker scrapy Python

将scrapy项目导出到不同的文件

我正在从 moocs 中抓取这样的评论一个从那里我获得了所有课程的详细信息，每个评论本身有 5 个项目和另外 6 个项目. 这是我的课程详情代码: def parse_reviews(self, response):l = ItemLoader(item=MoocsItem(), response=response)l.add_xpath('course_title', '//* ..

发布时间：2022-01-04 20:55:58 python scrapy scrapy-pipeline Python

无法在scrapy中导入项目

我有一个非常基本的蜘蛛，按照入门指南中的说明进行操作，但由于某种原因，尝试将我的项目导入我的蜘蛛会返回错误.蜘蛛和物品代码如下所示: from scrapy.spider import BaseSpiderfrom scrapy.selector import HtmlXPathSelector从 myProject.items 导入项目类 MyProject(BaseSpider):名称 = ..

发布时间：2022-01-04 20:55:48 python module web-scraping scrapy Python

Selenium 中的轮换代理

我在带有 Scrapy 的 Firefox 中使用 Selenium webdriver，现在我需要动态更改代理，但到目前为止我在文档中发现的是，当我实例化 webdriver 本身时，我可以在配置文件中指定代理.所以这意味着我不能动态更改代理? 有没有办法做到这一点? 解决方案 selenium 不提供这种功能.一旦启动浏览器，就无法动态更改浏览器首选项/所需功能. 您必须关 ..

发布时间：2022-01-04 20:55:32 python firefox selenium selenium-webdriver scrapy Python

scrapy 使用 CrawlerProcess.crawl() 从脚本中将 custom_settings 传递给蜘蛛

我正在尝试通过脚本以编程方式调用蜘蛛.我无法使用 CrawlerProcess 通过构造函数覆盖设置.让我用默认的爬虫来说明这一点，它用于从官方 scrapy 站点抓取引号(官方scrapy引用示例蜘蛛). class QuotesSpider(蜘蛛):名称 = "引用"def __init__(self, somestring, *args, **kwargs):super(QuotesSpi ..

发布时间：2022-01-04 20:55:17 python-3.x web-scraping scrapy scrapy-spider scrapinghub 其他开发

Scrapy:从 HTML 脚本中提取 JSON

我正在尝试从 HTML 脚本中提取(似乎是)JSON 数据.网站上的 HTML 脚本如下所示: $(document).ready(function(){var term = new Verba.Compare.Collections.Terms([{"id":"6436","name":"SUMMER 16","inquiry":true,"ordering":true},{"id":"651 ..

发布时间：2022-01-04 20:54:41 python html json xpath scrapy 前端开发

从python脚本调用scrapy不创建JSON输出文件

这是我用来调用scrapy的python脚本，的答案从脚本爬取后总是会阻止脚本执行刮刮 def stop_reactor():反应器停止()dispatcher.connect(stop_reactor, 信号=signals.spider_closed)蜘蛛 = MySpider(start_url='abc')爬虫 = 爬虫(设置())crawler.configure()crawl ..

发布时间：2022-01-04 20:54:32 python json web-crawler scrapy Python

无法通过scrapy的表单

我是使用 scrapy 的新手，我正在尝试从房地产网站获取一些信息.该站点有一个带有搜索表单(方法 GET)的主页.我正在尝试转到我的 start_requests (recherche.php) 中的结果页面，并设置我在地址栏中看到的所有 get 参数的 formdata 参数.我也设置了我的饼干，但他也没有工作.. 这是我的蜘蛛: from scrapy.spider import B ..

发布时间：2022-01-04 20:54:11 python forms web-crawler scrapy Python

Scrapy python csv 输出在每行之间有空行

我在生成的 csv 输出文件中每行scrapy 输出之间出现不需要的空行. 我已从 python2 迁移到 python 3，并且使用 Windows 10.因此，我正在为 python3 调整我的 scrapy 项目. 我目前(目前唯一的)问题是，当我将 scrapy 输出写入 CSV 文件时，每行之间有一个空行.这已在此处的几篇文章中突出显示(与 Windows 相关)，但我无法找 ..

发布时间：2022-01-04 20:54:00 python csv web-scraping scrapy Python

如何使用无限滚动抓取网站?

我想抓取这个网站.我写了一个蜘蛛，但它只抓取首页，即前 52 项. 我试过这个代码: from scrapy.spider import BaseSpiderfrom scrapy.selector import HtmlXPathSelector从scrapy.http导入请求a=[]从 aqaq.items 导入 aqaqItem导入操作系统导入 urlparse进口AST类aqaqs ..

发布时间：2022-01-04 20:53:23 javascript python-2.7 web-scraping scrapy 前端开发

scrapy相关内容