scrapy LinkExtractors 最终会得到独特的链接吗? [英] Do scrapy LinkExtractors end up with unique links?

查看：46 发布时间：2021/7/16 22:08:59 scrapy

本文介绍了scrapy LinkExtractors 最终会得到独特的链接吗?的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

所以，我有一个页面，里面有很多文章和页码.现在，如果我想提取我使用的文章:

So, I have a page with a lot of articles and page numbers. Now if I want to extract an article I use:

Rule(LinkExtractor(allow=['article\/.+\.html']), callback='parse_article')

对于页面，我使用此规则:规则(LinkExtractor(allow='page=\d+'))

for pages I use this Rule: Rule(LinkExtractor(allow='page=\d+'))

所以我最终得到了这些规则:

so I end up with these rules:

rules = [
    Rule(LinkExtractor(allow='page=\d+')),
    Rule(LinkExtractor(allow=['article\/.+\.html']), callback='parse_article')
]

我的问题是，我会得到重复的页面吗?例如，它会从第 1、2、4、5、6 页(直到第 3 页不再可见)中提取第 3 页并将其添加到提取的链接列表中吗?或者它只在它的末尾保留唯一的网址?

My question is, will I get repeated pages? as in, will it extract page 3 from page 1,2,4,5,6(till page 3 is no longer visible) and add it to the extracted link list? or it only keeps unique urls at the end of it?

scrapy LinkExtractors 最终会得到独特的链接吗? [英] Do scrapy LinkExtractors end up with unique links?

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

scrapy LinkExtractors 最终会得到独特的链接吗? [英] Do scrapy LinkExtractors end up with unique links?

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭