scrapy-spider 第3页 - IT屋-程序员软件开发技术分享社区

Scrapy 没有正确跟随分页，捕获分页中的第一个链接

昨天我开始学习 Scrapy 来提取一些信息，但我似乎无法正确分页.我按照教程这里但我认为该网站有不同的分页系统. 大多数分页都有一个class="next"，但这个没有.它只有一个列表，其中当前页面被列为当前类的跨度: 1 ..

具有多个页面的 Scrapy

我创建了一个简单的scrapy项目，在其中，我从初始站点example.com/full获取了总页数.现在我需要抓取从 example.com/page-2 开始的所有页面到 100(如果总页数为 100).我该怎么做? 任何建议都会有所帮助. 代码: 导入scrapy类 AllSpider(scrapy.Spider):名称 = '全部'allowed_domains = ['ex ..

发布时间：2021-07-16 22:19:31 python-3.x web-scraping scrapy scrapy-spider 其他开发

如何从我们正在抓取的网页上的链接网页抓取数据

我正在这个网页上抓取学院的名称，但是，我也想抓取这些学院的学院数量，如果通过点击学院名称打开学院的特定网页，则可以获得这些学院的数量. > 我应该在这段代码中附加什么来获得结果.结果应该是 [(name1,faculty1), (name2,faculty2),...] 导入scrapy类 QuotesSpider(scrapy.Spider):姓名 = "学生"start_urls = ..

发布时间：2021-07-16 22:19:10 python scrapy web-crawler scrapy-spider Python

Scrapy:在异地链接上爬行 1 级深度

在scrapy中，我将如何让scrapy对允许域之外的所有链接仅抓取1级深度.在爬网过程中，我希望能够确保站点内的所有出站链接都正常工作，而不是 404 链接.我不希望它抓取非允许域的整个站点.我目前正在处理允许的域 404.我知道我可以将 DEPTH_LIMIT 设置为 1，但这也会影响允许的域. 我的代码: from scrapy.selector import Selector从 s ..

发布时间：2021-07-16 22:18:49 scrapy scrapy-spider 其他开发

使用scrapy从gsmarena页面中提取数据

我正在尝试从 gsmarena 页面下载数据:"http://www.gsmarena.com/htc_one_me-7275.php". 但是数据以表格和表格行的形式分类.数据格式如下: 表头>td[@class='ttl'] >td[@class='nfo'] 编辑代码:感谢 stackexchange 社区成员的帮助，我将代码重新格式化为:item.py 文件: 导入scrapy ..

发布时间：2021-07-16 22:17:51 python web-scraping scrapy scrapy-spider Python

将 Selenium HTML 字符串传递给 Scrapy 以将 URL 添加到 Scrapy 要抓取的 URL 列表

我对 Python、Scrapy 和 Selenium 非常陌生.因此，您可以提供的任何帮助将不胜感激. 我希望能够将我从 Selenium 获得的 HTML 作为页面源并将其处理为 Scrapy Response 对象.主要原因是能够将 Selenium Webdriver 页面源中的 URL 添加到 Scrapy 将解析的 URL 列表中. 再次感谢您的帮助. 作为第二个问题 ..

发布时间：2021-07-16 22:17:40 python selenium web-scraping scrapy scrapy-spider Python

Scrapy 在使用 crawlerprocess 运行时抛出错误

我使用scrapy在python中编写了一个脚本来从网站收集不同帖子的名称及其链接.当我从命令行执行我的脚本时，它可以完美运行.现在，我的目的是使用 CrawlerProcess() 运行脚本.我在不同的地方寻找类似的问题，但找不到任何直接的解决方案或任何更接近的解决方案.但是，当我尝试按原样运行它时，出现以下错误: 从 stackoverflow.items 导入 Stackoverflo ..

发布时间：2021-07-16 22:17:14 python python-3.x web-scraping scrapy scrapy-spider Python

Scrapy抓取蜘蛛不下载文件?

所以我做了一个爬行蜘蛛来爬行这个网站 (https://minerals.usgs.gov/science/mineral-deposit-database/#products，遵循该网页上的每个链接，从中抓取标题，并且也可以下载文件.但是，这不会发生并且日志中没有错误指示！日志样本 2018-11-19 18:20:12 [scrapy.core.scraper] DEBUG:从 {' ..

发布时间：2021-07-16 22:15:48 python-3.x web-scraping scrapy scrapy-spider 其他开发

我收到一个 AttributeError: 'HtmlResponse' object has no attribute 'xpath' in scrapy

我是 scrapy 的新手，我正在使用 Scrapy 0.14.4.我只想按照以下示例打印标题和链接. 这是我的蜘蛛: from scrapy.spider import BaseSpider类 XxxSpider(BaseSpider):姓名 = "xxx"allow_domains = ["xxx.xxx.xxx"]start_urls = ["http://xxx.xxx.com/j ..

发布时间：2021-07-16 22:15:45 python xpath scrapy scrapy-spider Python

需要帮助来模拟 xhr 请求

我需要使用“加载更多按钮"来抓取网站.这是我用 Python 编写的蜘蛛代码: 导入scrapy导入json进口请求进口重新从解析导入选择器from scrapy.selector import Selector从scrapy.http 导入HtmlResponse标题 = {'起源': 'https://www.tayara.tn','接受编码': 'gzip, deflate, br','a ..

发布时间：2021-07-16 22:15:42 python ajax web-scraping xmlhttprequest scrapy-spider 前端开发

如何在继承的 CrawlSpider 中重用基于爬虫的 Spider 的解析方法?

我目前有一个基于 Spider 的蜘蛛，我编写它用于抓取 start_urls 的输入 JSON 数组: from scrapy.spider import Spider从 scrapy.contrib.spiders 导入 CrawlSpider，规则从 scrapy.contrib.linkextractors.sgml 导入 SgmlLinkExtractor从 foo.items 导入 ..

发布时间：2021-07-16 22:15:27 python web-scraping scrapy scrapy-spider Python

在 Scrapy 中提取图像

我已经在这里阅读了其他一些答案，但我遗漏了一些基本的东西.我正在尝试使用 CrawlSpider 从网站中提取图像. settings.py BOT_NAME = 'healthycomm'SPIDER_MODULES = ['healthycomm.spider']NEWSPIDER_MODULE = 'healthycomm.spider'ITEM_PIPELINES = {'scra ..

发布时间：2021-07-16 22:15:16 python scrapy scrapy-spider Python

Scrapy Spider 不会因使用 CloseSpider 扩展而终止

我已经建立了一个 Scrapy 蜘蛛来解析一个 xml 提要，处理大约 20,000 条记录. 出于开发目的，我想限制处理的项目数量.通过阅读我确定的 Scrapy 文档，我需要使用 CloseSpider 扩展. 我已遵循有关如何启用此功能的指南 - 在我的蜘蛛配置中，我有以下内容: CLOSESPIDER_ITEMCOUNT = 1扩展 = {'scrapy.extensions ..

发布时间：2021-07-16 22:15:13 python python-3.x scrapy scrapy-spider Python

Python Scrapy Parse 提取的链接与另一个函数

我是scrapy的新手，我正在尝试抓取黄页以进行学习，一切正常，但我想要电子邮件地址，但要做到这一点，我需要访问在 parse 中提取的链接并使用另一个 parse_email 函数对其进行解析，但它没有炒锅. 我的意思是我测试了 parse_email 函数它可以工作但它在主解析函数内部不起作用，我希望 parse_email 函数获取链接的源，所以我使用回调调用 parse_email ..

发布时间：2021-07-16 22:15:10 python web-scraping scrapy scrapy-spider Python

在 for 循环中运行多个蜘蛛

我尝试实例化多个蜘蛛.第一个工作正常，但第二个给了我一个错误:ReactorNotRestartable. feeds = {'美国航空航天局':{'name': 'nasa','url': 'https://www.nasa.gov/rss/dyn/break_news.rss','start_urls':['https://www.nasa.gov/rss/dyn/breaking_news ..

发布时间：2021-07-16 22:15:07 python scrapy twisted scrapy-spider Python

Scrapy 处理 301/302 响应代码以及跟踪目标 url

我使用scrapy 1.0.5 版来实现爬虫.目前我已经设置了 REDIRECT_ENABLED = False 和 handle_httpstatus_list = [500, 301, 302] 来抓取带有 301 和 302 响应的页面.但是，由于 REDIRECT_ENABLED 设置为 False，蜘蛛不会转到 Location 响应标头中的目标 url.我怎样才能做到这一点? 解 ..

发布时间：2021-07-16 22:13:13 web-scraping scrapy scrapy-spider 其他开发

Scrapy 从一个主蜘蛛运行多个蜘蛛?

我有两个蜘蛛，它们接受一个主蜘蛛抓取的网址和数据.我的方法是在主蜘蛛中使用 CrawlerProcess 并将数据传递给两个蜘蛛.这是我的方法: class LightnovelSpider(scrapy.Spider):name = "小说详情"allowed_domains = [“readlightnovel.com"]def __init__(self,novels = []):self ..

发布时间：2021-07-16 22:12:55 scrapy scrapy-spider 其他开发

Portia/Scrapy - 如何替换或添加值以输出 JSON

只有 2 个快速的疑问: 1- 我希望我的最终 JSON 文件替换文本提取(例如提取的文本是添加到购物车，但我想在我的最终 JSON 中更改为 IN STOCK.这可能吗? 2- 我还想将一些自定义数据添加到网站中没有的最终 JSON 文件中，例如“商店名称"...这样我抓取的每个产品后面都会有商店名称.可能吗? 我同时使用 Portia 和 Scrapy，因此在这两个平台上都欢 ..

发布时间：2021-07-16 22:12:52 python scrapy scrapy-spider portia Python

如何检查 Scrapy 中是否存在特定按钮?

我在网页中有一个按钮现在我想检查页面上是否存在此按钮或不使用 Xpath 选择器，以便如果存在，我可以转到下一页并从那里检索信息. 解决方案首先，您必须确定什么算作“这个按钮".鉴于上下文，我建议寻找带有“nextbutton"类的输入.您可以在 XPath 中检查只有一个类的元素: //input[@class='nextbutton'] 但这仅查找完全匹配.所以你可以试 ..

发布时间：2021-07-16 22:12:25 scrapy scrapy-spider 其他开发

Scrapy 无法使用 itemloader 抓取第二个页面

更新:7/29，晚上 9:29:阅读后这篇文章，我更新了我的代码. 更新:2015 年 7 月 28 日晚上 7 点 35 分，按照 Martin 的建议，消息发生了变化，但仍然没有项目列表或写入数据库. ORIGINAL:我可以成功抓取单个页面(基页).现在我尝试使用请求和回调命令从“基本"页面中找到的另一个 url 中抓取其中一个项目.但它不起作用.蜘蛛在这里: from sc ..

发布时间：2021-07-16 22:12:22 python-2.7 scrapy scrapy-spider 其他开发

scrapy-spider相关内容