scrapy-spider相关内容
昨天我开始学习 Scrapy 来提取一些信息,但我似乎无法正确分页.我按照教程这里但我认为该网站有不同的分页系统. 大多数分页都有一个class="next",但这个没有.它只有一个列表,其中当前页面被列为当前类的跨度:
1
..
我创建了一个简单的scrapy项目,在其中,我从初始站点example.com/full获取了总页数.现在我需要抓取从 example.com/page-2 开始的所有页面到 100(如果总页数为 100).我该怎么做? 任何建议都会有所帮助. 代码: 导入scrapy类 AllSpider(scrapy.Spider):名称 = '全部'allowed_domains = ['ex
..
我正在这个网页上抓取学院的名称,但是,我也想抓取这些学院的学院数量,如果通过点击学院名称打开学院的特定网页,则可以获得这些学院的数量. > 我应该在这段代码中附加什么来获得结果.结果应该是 [(name1,faculty1), (name2,faculty2),...] 导入scrapy类 QuotesSpider(scrapy.Spider):姓名 = "学生"start_urls =
..
在scrapy中,我将如何让scrapy对允许域之外的所有链接仅抓取1级深度.在爬网过程中,我希望能够确保站点内的所有出站链接都正常工作,而不是 404 链接.我不希望它抓取非允许域的整个站点.我目前正在处理允许的域 404.我知道我可以将 DEPTH_LIMIT 设置为 1,但这也会影响允许的域. 我的代码: from scrapy.selector import Selector从 s
..
我正在尝试从 gsmarena 页面下载数据:"http://www.gsmarena.com/htc_one_me-7275.php". 但是数据以表格和表格行的形式分类.数据格式如下: 表头>td[@class='ttl'] >td[@class='nfo'] 编辑代码:感谢 stackexchange 社区成员的帮助,我将代码重新格式化为:item.py 文件: 导入scrapy
..
我对 Python、Scrapy 和 Selenium 非常陌生.因此,您可以提供的任何帮助将不胜感激. 我希望能够将我从 Selenium 获得的 HTML 作为页面源并将其处理为 Scrapy Response 对象.主要原因是能够将 Selenium Webdriver 页面源中的 URL 添加到 Scrapy 将解析的 URL 列表中. 再次感谢您的帮助. 作为第二个问题
..
我使用scrapy在python中编写了一个脚本来从网站收集不同帖子的名称及其链接.当我从命令行执行我的脚本时,它可以完美运行.现在,我的目的是使用 CrawlerProcess() 运行脚本.我在不同的地方寻找类似的问题,但找不到任何直接的解决方案或任何更接近的解决方案.但是,当我尝试按原样运行它时,出现以下错误: 从 stackoverflow.items 导入 Stackoverflo
..
所以我做了一个爬行蜘蛛来爬行这个网站 (https://minerals.usgs.gov/science/mineral-deposit-database/#products,遵循该网页上的每个链接,从中抓取标题,并且也可以下载文件.但是,这不会发生并且日志中没有错误指示! 日志样本 2018-11-19 18:20:12 [scrapy.core.scraper] DEBUG:从 {'
..
我是 scrapy 的新手,我正在使用 Scrapy 0.14.4.我只想按照以下示例打印标题和链接. 这是我的蜘蛛: from scrapy.spider import BaseSpider类 XxxSpider(BaseSpider):姓名 = "xxx"allow_domains = ["xxx.xxx.xxx"]start_urls = ["http://xxx.xxx.com/j
..
我需要使用“加载更多按钮"来抓取网站.这是我用 Python 编写的蜘蛛代码: 导入scrapy导入json进口请求进口重新从解析导入选择器from scrapy.selector import Selector从scrapy.http 导入HtmlResponse标题 = {'起源': 'https://www.tayara.tn','接受编码': 'gzip, deflate, br','a
..
我目前有一个基于 Spider 的蜘蛛,我编写它用于抓取 start_urls 的输入 JSON 数组: from scrapy.spider import Spider从 scrapy.contrib.spiders 导入 CrawlSpider,规则从 scrapy.contrib.linkextractors.sgml 导入 SgmlLinkExtractor从 foo.items 导入
..
我已经在这里阅读了其他一些答案,但我遗漏了一些基本的东西.我正在尝试使用 CrawlSpider 从网站中提取图像. settings.py BOT_NAME = 'healthycomm'SPIDER_MODULES = ['healthycomm.spider']NEWSPIDER_MODULE = 'healthycomm.spider'ITEM_PIPELINES = {'scra
..
我已经建立了一个 Scrapy 蜘蛛来解析一个 xml 提要,处理大约 20,000 条记录. 出于开发目的,我想限制处理的项目数量.通过阅读我确定的 Scrapy 文档,我需要使用 CloseSpider 扩展. 我已遵循有关如何启用此功能的指南 - 在我的蜘蛛配置中,我有以下内容: CLOSESPIDER_ITEMCOUNT = 1扩展 = {'scrapy.extensions
..
我是scrapy的新手,我正在尝试抓取黄页以进行学习,一切正常,但我想要电子邮件地址,但要做到这一点,我需要访问在 parse 中提取的链接并使用另一个 parse_email 函数对其进行解析,但它没有炒锅. 我的意思是我测试了 parse_email 函数它可以工作但它在主解析函数内部不起作用,我希望 parse_email 函数获取链接的源,所以我使用回调调用 parse_email
..
我尝试实例化多个蜘蛛.第一个工作正常,但第二个给了我一个错误:ReactorNotRestartable. feeds = {'美国航空航天局':{'name': 'nasa','url': 'https://www.nasa.gov/rss/dyn/break_news.rss','start_urls':['https://www.nasa.gov/rss/dyn/breaking_news
..
我使用scrapy 1.0.5 版来实现爬虫.目前我已经设置了 REDIRECT_ENABLED = False 和 handle_httpstatus_list = [500, 301, 302] 来抓取带有 301 和 302 响应的页面.但是,由于 REDIRECT_ENABLED 设置为 False,蜘蛛不会转到 Location 响应标头中的目标 url.我怎样才能做到这一点? 解
..
我有两个蜘蛛,它们接受一个主蜘蛛抓取的网址和数据.我的方法是在主蜘蛛中使用 CrawlerProcess 并将数据传递给两个蜘蛛.这是我的方法: class LightnovelSpider(scrapy.Spider):name = "小说详情"allowed_domains = [“readlightnovel.com"]def __init__(self,novels = []):self
..
只有 2 个快速的疑问: 1- 我希望我的最终 JSON 文件替换文本提取(例如提取的文本是添加到购物车,但我想在我的最终 JSON 中更改为 IN STOCK.这可能吗? 2- 我还想将一些自定义数据添加到网站中没有的最终 JSON 文件中,例如“商店名称"...这样我抓取的每个产品后面都会有商店名称.可能吗? 我同时使用 Portia 和 Scrapy,因此在这两个平台上都欢
..
我在网页中有一个按钮 现在我想检查页面上是否存在此按钮或不使用 Xpath 选择器,以便如果存在,我可以转到下一页并从那里检索信息. 解决方案 首先,您必须确定什么算作“这个按钮".鉴于上下文,我建议寻找带有“nextbutton"类的输入.您可以在 XPath 中检查只有一个类的元素: //input[@class='nextbutton'] 但这仅查找完全匹配.所以你可以试
..
更新:7/29,晚上 9:29:阅读后 这篇文章,我更新了我的代码. 更新:2015 年 7 月 28 日晚上 7 点 35 分,按照 Martin 的建议,消息发生了变化,但仍然没有项目列表或写入数据库. ORIGINAL:我可以成功抓取单个页面(基页).现在我尝试使用请求和回调命令从“基本"页面中找到的另一个 url 中抓取其中一个项目.但它不起作用.蜘蛛在这里: from sc
..