scrapy-spider相关内容

具有多个页面的 Scrapy

我创建了一个简单的scrapy项目,在其中,我从初始站点example.com/full获取了总页数.现在我需要抓取从 example.com/page-2 开始的所有页面到 100(如果总页数为 100).我该怎么做? 任何建议都会有所帮助. 代码: 导入scrapy类 AllSpider(scrapy.Spider):名称 = '全部'allowed_domains = ['ex ..
发布时间:2021-07-16 22:19:31 其他开发

如何从我们正在抓取的网页上的链接网页抓取数据

我正在这个网页上抓取学院的名称,但是,我也想抓取这些学院的学院数量,如果通过点击学院名称打​​开学院的特定网页,则可以获得这些学院的数量. > 我应该在这段代码中附加什么来获得结果.结果应该是 [(name1,faculty1), (name2,faculty2),...] 导入scrapy类 QuotesSpider(scrapy.Spider):姓名 = "学生"start_urls = ..
发布时间:2021-07-16 22:19:10 Python

Scrapy:在异地链接上爬行 1 级深度

在scrapy中,我将如何让scrapy对允许域之外的所有链接仅抓取1级深度.在爬网过程中,我希望能够确保站点内的所有出站链接都正常工作,而不是 404 链接.我不希望它抓取非允许域的整个站点.我目前正在处理允许的域 404.我知道我可以将 DEPTH_LIMIT 设置为 1,但这也会影响允许的域. 我的代码: from scrapy.selector import Selector从 s ..
发布时间:2021-07-16 22:18:49 其他开发

使用scrapy从gsmarena页面中提取数据

我正在尝试从 gsmarena 页面下载数据:"http://www.gsmarena.com/htc_one_me-7275.php". 但是数据以表格和表格行的形式分类.数据格式如下: 表头>td[@class='ttl'] >td[@class='nfo'] 编辑代码:感谢 stackexchange 社区成员的帮助,我将代码重新格式化为:item.py 文件: 导入scrapy ..
发布时间:2021-07-16 22:17:51 Python

将 Selenium HTML 字符串传递给 Scrapy 以将 URL 添加到 Scrapy 要抓取的 URL 列表

我对 Python、Scrapy 和 Selenium 非常陌生.因此,您可以提供的任何帮助将不胜感激. 我希望能够将我从 Selenium 获得的 HTML 作为页面源并将其处理为 Scrapy Response 对象.主要原因是能够将 Selenium Webdriver 页面源中的 URL 添加到 Scrapy 将解析的 URL 列表中. 再次感谢您的帮助. 作为第二个问题 ..
发布时间:2021-07-16 22:17:40 Python

Scrapy 在使用 crawlerprocess 运行时抛出错误

我使用scrapy在python中编写了一个脚本来从网站收集不同帖子的名称及其链接.当我从命令行执行我的脚本时,它可以完美运行.现在,我的目的是使用 CrawlerProcess() 运行脚本.我在不同的地方寻找类似的问题,但找不到任何直接的解决方案或任何更接近的解决方案.但是,当我尝试按原样运行它时,出现以下错误: 从 stackoverflow.items 导入 Stackoverflo ..
发布时间:2021-07-16 22:17:14 Python

Scrapy抓取蜘蛛不下载文件?

所以我做了一个爬行蜘蛛来爬行这个网站 (https://minerals.usgs.gov/science/mineral-deposit-database/#products,遵循该网页上的每个链接,从中抓取标题,并且也可以下载文件.但是,这不会发生并且日志中没有错误指示! 日志样本 2018-11-19 18:20:12 [scrapy.core.scraper] DEBUG:从 {' ..
发布时间:2021-07-16 22:15:48 其他开发

在 Scrapy 中提取图像

我已经在这里阅读了其他一些答案,但我遗漏了一些基本的东西.我正在尝试使用 CrawlSpider 从网站中提取图像. settings.py BOT_NAME = 'healthycomm'SPIDER_MODULES = ['healthycomm.spider']NEWSPIDER_MODULE = 'healthycomm.spider'ITEM_PIPELINES = {'scra ..
发布时间:2021-07-16 22:15:16 Python

Scrapy Spider 不会因使用 CloseSpider 扩展而终止

我已经建立了一个 Scrapy 蜘蛛来解析一个 xml 提要,处理大约 20,000 条记录. 出于开发目的,我想限制处理的项目数量.通过阅读我确定的 Scrapy 文档,我需要使用 CloseSpider 扩展. 我已遵循有关如何启用此功能的指南 - 在我的蜘蛛配置中,我有以下内容: CLOSESPIDER_ITEMCOUNT = 1扩展 = {'scrapy.extensions ..
发布时间:2021-07-16 22:15:13 Python

Python Scrapy Parse 提取的链接与另一个函数

我是scrapy的新手,我正在尝试抓取黄页以进行学习,一切正常,但我想要电子邮件地址,但要做到这一点,我需要访问在 parse 中提取的链接并使用另一个 parse_email 函数对其进行解析,但它没有炒锅. 我的意思是我测试了 parse_email 函数它可以工作但它在主解析函数内部不起作用,我希望 parse_email 函数获取链接的源,所以我使用回调调用 parse_email ..
发布时间:2021-07-16 22:15:10 Python

在 for 循环中运行多个蜘蛛

我尝试实例化多个蜘蛛.第一个工作正常,但第二个给了我一个错误:ReactorNotRestartable. feeds = {'美国航空航天局':{'name': 'nasa','url': 'https://www.nasa.gov/rss/dyn/break_news.rss','start_urls':['https://www.nasa.gov/rss/dyn/breaking_news ..
发布时间:2021-07-16 22:15:07 Python

Scrapy 从一个主蜘蛛运行多个蜘蛛?

我有两个蜘蛛,它们接受一个主蜘蛛抓取的网址和数据.我的方法是在主蜘蛛中使用 CrawlerProcess 并将数据传递给两个蜘蛛.这是我的方法: class LightnovelSpider(scrapy.Spider):name = "小说详情"allowed_domains = [“readlightnovel.com"]def __init__(self,novels = []):self ..
发布时间:2021-07-16 22:12:55 其他开发

Portia/Scrapy - 如何替换或添加值以输出 JSON

只有 2 个快速的疑问: 1- 我希望我的最终 JSON 文件替换文本提取(例如提取的文本是添加到购物车,但我想在我的最终 JSON 中更改为 IN STOCK.这可能吗? 2- 我还想将一些自定义数据添加到网站中没有的最终 JSON 文件中,例如“商店名称"...这样我抓取的每个产品后面都会有商店名称.可能吗? 我同时使用 Portia 和 Scrapy,因此在这两个平台上都欢 ..
发布时间:2021-07-16 22:12:52 Python

如何检查 Scrapy 中是否存在特定按钮?

我在网页中有一个按钮 现在我想检查页面上是否存在此按钮或不使用 Xpath 选择器,以便如果存在,我可以转到下一页并从那里检索信息. 解决方案 首先,您必须确定什么算作“这个按钮".鉴于上下文,我建议寻找带有“nextbutton"类的输入.您可以在 XPath 中检查只有一个类的元素: //input[@class='nextbutton'] 但这仅查找完全匹配.所以你可以试 ..
发布时间:2021-07-16 22:12:25 其他开发

Scrapy 无法使用 itemloader 抓取第二个页面

更新:7/29,晚上 9:29:阅读后 这篇文章,我更新了我的代码. 更新:2015 年 7 月 28 日晚上 7 点 35 分,按照 Martin 的建议,消息发生了变化,但仍然没有项目列表或写入数据库. ORIGINAL:我可以成功抓取单个页面(基页).现在我尝试使用请求和回调命令从“基本"页面中找到的另一个 url 中抓取其中一个项目.但它不起作用.蜘蛛在这里: from sc ..
发布时间:2021-07-16 22:12:22 其他开发