scrapy-spider相关内容

如何使用 Scrapy 打开文件流进行读取?

使用 Scrapy,我想使用我提取的 url 将二进制文件读入内存并提取内容. 目前,我可以使用选择器在页面上找到 URL,例如 myFile = response.xpath('//a[contains(@href,".interestingfileextension")]/@href').extract() 然后我如何将该文件读入内存以便我可以在该文件中查找内容? 非常感谢 ..
发布时间:2021-07-16 22:12:10 Python

如何使用scrapy获取职位描述?

我是 scrapy 和 XPath 的新手,但用 Python 编程有一段时间了.我想从页面 https://www 获取电子邮件、提供报价的人的姓名和电话号码.germanystartupjobs.com/job/joblift-berlin-germany-3-working-student-offpage-seo-french-market/ 使用scrapy.如您所见,电子邮件和电话作为 ..
发布时间:2021-07-16 22:11:42 Python

Scrapy 从表中的链接获取数据

我正在尝试从 html 表中抓取数据,Texas Death Row 我能够使用下面的蜘蛛脚本从表中提取现有数据: from scrapy.spider import BaseSpiderfrom scrapy.selector import HtmlXPathSelector从 texasdeath.items 导入 DeathItem类死亡蜘蛛(BaseSpider):名字=“死亡"a ..
发布时间:2021-07-16 22:11:09 Python

如何将实例变量添加到 Scrapy CrawlSpider?

我正在运行 CrawlSpider,我想通过将函数传递给 process_request 来实现一些逻辑,以在运行中停止跟踪某些链接. 该函数使用蜘蛛的 class 变量来跟踪当前状态,并根据它(以及引用 URL),链接被删除或继续被处理: class BroadCrawlSpider(CrawlSpider):名称 = 'bitsy'start_urls = ['http://scrap ..
发布时间:2021-07-16 22:09:09 Python

Scrapy-如何从类别中提取所有博客文章?

我正在使用scrapy来提取我博客的所有帖子.问题是我不知道如何创建一个规则来读取任何给定博客类别中的所有帖子? 示例:在我的博客上,“环境设置"类别有 17 个帖子.所以在scrapy代码中,我可以按照给定的方式对其进行硬编码,但这不是一个非常实用的方法 start_urls=["https://edumine.wordpress.com/category/ide-configurati ..
发布时间:2021-07-16 22:08:35 Python

CrawlSpider with Splash 在第一个 URL 后卡住

我正在编写一个爬虫蜘蛛,我需要在其中渲染一些带有飞溅的响应.我的蜘蛛基于 CrawlSpider.我需要呈现我的 start_url 响应来喂养我的爬行蜘蛛.不幸的是,我的爬行蜘蛛在呈现第一个响应后停止了.知道出了什么问题吗? class VideoSpider(CrawlSpider):start_urls = ['https://juke.com/de/de/search?q=1+Mord+ ..
发布时间:2021-07-16 22:08:00 其他开发

每个 start_url 抓取了多少项

我使用scrapy 抓取1000 个网址并将抓取的项目存储在mongodb 中.我想知道为每个网址找到了多少项目.从scrapy stats我可以看到'item_scraped_count': 3500但是,我需要为每个 start_url 分别计算这个计数.每个项目还有 referer 字段,我可能会用它来手动计算每个 url 项目: 2016-05-24 15:15:10 [scrapy] ..
发布时间:2021-07-16 22:07:52 Python

Pyinstaller 抓取错误:

在windows 32位上安装scrapy的所有依赖项后.我试图从我的爬虫蜘蛛构建一个可执行文件.蜘蛛脚本“runspider.py"在作为“python runspider.py"运行时工作正常 构建可执行文件“pyinstaller --onefile runspider.py": C:\Users\username\Documents\scrapyexe>pyinstaller ..
发布时间:2021-07-16 22:05:57 Python

Scrapy刮板速度慢的原因

我创建了一个非常慢的新 Scrapy 蜘蛛.它每秒只能抓取大约两页,而我创建的其他 Scrapy 爬虫的抓取速度要快得多. 我想知道是什么导致了这个问题,以及如何解决这个问题.代码与其他蜘蛛并没有太大区别,我不确定它是否与问题有关,但如果您认为可能涉及,我会添加它. 事实上,我的印象是请求不是异步的.我从来没有遇到过这种问题,而且我对 Scrapy 还很陌生. 编辑 这是蜘 ..
发布时间:2021-07-16 22:05:36 Python

Scrapy:在 __init__ 中设置的规则被 CrawlSpider 忽略

我已经坚持了几天,这让我发疯了. 我这样称呼我的爬虫蜘蛛: scrapy 爬取示例 -a follow_links="True" 我传入“follow_links"标志来确定是应该抓取整个网站,还是只抓取我在蜘蛛中定义的索引页. 在蜘蛛的构造函数中检查这个标志以查看应该设置哪个规则: def __init__(self, *args, **kwargs):super(Exampl ..
发布时间:2021-07-16 22:04:57 Python

将争论传递给 Scrapy 中的 allowed_domains

我正在创建一个抓取工具,它接受用户输入并抓取网站上的所有链接.但是,我只需要限制对来自该域的链接的链接的抓取和提取,而不是外部域.就爬虫而言,我把它放到了我需要的地方.我的问题是,对于我的 allowed_domains 函数,我似乎无法传入通过命令放入的 scrapy 选项.Bellow 是第一个运行的脚本: # 第一个脚本导入操作系统定义用户输入():user_input = raw_inp ..
发布时间:2021-07-16 22:04:42 Python

Scrapy 不会抓取所有 start_url

我有一个大约 2211 个起始 url 的列表,scrapy 会抓取一些,但不是全部.当我将 start_url 设置为单个 url 时,它会抓取 URL,如果我在大列表中有 URL,scrapy 不会抓取. 是否对 start_urls 设置了限制? 我的代码: from pymongo import MongoClient进口重新from scrapy.selector impo ..
发布时间:2021-07-16 22:04:19 Python

Scrapy + Splash + ScrapyJS

我正在使用 Splash 2.0.2 + Scrapy 1.0.5 + Scrapyjs 0.1.1 但我仍然无法通过单击来呈现 javascript.这是一个示例网址 https://olx.pt/anuncio/loja-nova-com-250m2-garagem-em-box-fechada-para-arrumos-IDyTzAT.html#c49d3d94cf 我仍然看到没有呈现 ..
发布时间:2021-07-16 22:03:29 Python

Scrapy 返回多个项目

我是新来的Scrapy,我真的只是失去了我如何能在一个块中返回多个项目. 基本上,我得到了一个 HTML 标签,它有一个引用,其中包含嵌套的文本标签、作者姓名和一些关于该引用的标签. 此处的代码仅返回一个引号,仅此而已.它不使用循环返回其余部分.我已经在网上搜索了几个小时,但我很绝望我没有得到它.到目前为止,这是我的代码: Spider.py 导入scrapy从 scrapy. ..
发布时间:2021-07-16 22:03:11 Python