scrapy相关内容

crawlSpider 似乎不遵守规则

这是我的代码.实际上我按照“使用 Scrapy 递归抓取网页",看来我在某处包含了一个错误. 有人可以帮我找到吗?这让我发疯了,我只想要所有结果页面的所有结果.相反,它给了我第 1 页的结果. 这是我的代码: 导入scrapyfrom scrapy.selector import Selector从scrapy.spider导入CrawlSpider,规则从scrapy.http.r ..

多个蜘蛛/Scrapy/管道的导出CSV丢失数据

我根据这里的一些示例实现了一个管道.我正在尝试在单个 CSV 文件中导出多个蜘蛛(由单个文件而不是在命令行中启动)的所有信息. 但是,显示在 shell 中的一些数据(大约 10%)似乎没有记录到 CSV 中.这是因为蜘蛛在同一时间写作吗? 如何将其修复到我的脚本中以在单个 CSV 中收集所有数据?我正在使用 CrawlerProcess 来启动蜘蛛. 来自scrapy导入信号从 s ..
发布时间:2021-07-17 18:35:58 Python

当 xpath 在 Chrome 控制台中工作时,Scrapy shell 无法抓取信息

我正在开展一个项目,以收集大学教授的联系信息.(所以它不是恶意的.)教授页面是动态的.我通过 Chrome 网络找到了请求.但是,scrapy xpath 在浏览器上运行时在scrapy shell 中不起作用.我什至尝试添加标题.scrapy shell 结果 Chrome 控制台结果 导入scrapy从 university.items 导入 UniversitiesItem类 Uni ..
发布时间:2021-07-17 18:35:55 其他开发

Ubuntu 服务器上的 Scrapy Splash:有一个意外的关键字参数“编码"

我使用的 Scrapy Splash 在我的本地机器上运行良好,但是当我在我的 Ubuntu 服务器上使用它时它返回这个错误.这是为什么?是不是内存不足造成的? 文件“/usr/local/lib64/python2.7/site-packages/twisted/internet/defer.py",第 1299 行,在 _inlineCallbacks结果 = g.send(result) ..
发布时间:2021-07-17 18:35:52 Python

抓取:嵌套的 url 数据抓取

我有一个网站名称 https://www.grohe.com/in在该页面中,我想获得一种浴室水龙头 https://www.grohe.com/in/25796/bathroom/bathroom-faucets/grandera/在该页面中有多个产品/相关产品.我想获取每个产品的 url 并删除数据.为此,我是这样写的... 我的 items.py 文件看起来像 from scrapy ..
发布时间:2021-07-17 18:35:49 Python

Scrapy 只返回第一个结果

我正在尝试从 gelbeseiten.de(德国的黄页)中抓取数据 # -*- 编码:utf-8 -*-导入scrapy从 scrapy.spider 导入 CrawlSpider从scrapy.http导入请求from scrapy.selector import Selector从scrapy.http 导入HtmlResponse类 GelbeseitenSpider(scrapy.Spi ..
发布时间:2021-07-17 18:35:46 Python

Scrapy 从 div 中提取文本

我正在使用 Scrapy 构建一个简单的抓取工具,但在提取数据的某些部分时遇到问题.该网站包含大约 20 个以下代码块: 星期五.2 月 10 日 0:00 AM ..
发布时间:2021-07-17 18:35:44 其他开发

使用 Scrapy LinkExtractor() 定位特定的域扩展

我想使用 Scrapy 的 LinkExtractor() 只关注 .th 域中的链接 我看到有一个 deny_extensions(list) 参数,但没有 allow_extensions() 参数. 鉴于此,我如何限制链接以允许 .th 中的域? 解决方案 deny_extensions 是过滤掉以.gz, .exe结尾的URL> 等等. 您可能正在寻找 allow ..
发布时间:2021-07-17 18:35:38 其他开发

在scrapy中排队后请求消失

Scrapy 似乎没有处理所有请求就完成了.我知道这一点是因为我在请求排队之前和之后都进行了日志记录,我可以清楚地看到这一点. 我同时登录了解析和错误回调方法,但没有一个被调用来处理那些丢失的请求. 如何调试这些请求发生了什么? 解决方案 重新排队请求时需要添加dont_filter=True.尽管该请求可能与其他请求不匹配,但 Scrapy 会记住它已经发出的请求,如果您重新 ..
发布时间:2021-07-17 18:35:35 其他开发

Scrapy - 如何将 html 字符串加载到 open_in_browser 函数中

我正在处理一些返回 HTML 字符串 (my_html) 的代码.我想使用 https 在浏览器中查看它的外观://doc.scrapy.org/en/latest/topics/debug.html#open-in-browser.为此,我尝试创建一个主体设置为“my_html"的响应对象.我尝试了很多东西,包括: new_response = TextResponse(body=my_htm ..
发布时间:2021-07-17 18:35:32 Python

Scrapy NotImplementedError

我试图在从各个页面抓取数据之前获取一些链接,但我收到了 NotImplementedError - 回溯如下: 回溯(最近一次调用最后一次):_runCallbacks 中的文件“/usr/lib/python2.7/dist-packages/twisted/internet/defer.py",第 588 行current.result = callback(current.result, ..
发布时间:2021-07-17 18:35:26 Python

Scrapy找不到表格css

最近刚开始使用 Scrapy,到目前为止我一直很幸运,直到出现这个问题.我似乎无法在这里“找到"积分榜; http://www.baseball-reference.com/leagues/MLB/2016-standings.shtml#all_expanded_standings_overall 它的 id = '#expanded_standings_overall' 但我在我的 ..
发布时间:2021-07-17 18:35:21 前端开发

Python - 如何将来自scrapy.request的响应从yield添加到数组中

我正在尝试从 wiki 主权国家列表中收集不同主权国家的人口,并将它们添加到每个响应的数组中.在下面的代码中,allList 应该有一个包含 ['nation'] 中的国家名称和 ['人口统计'] 中的人口的字典列表.非常感谢. # -*- 编码:utf-8 -*-导入scrapy导入日志导入 csv导入打印类爬虫蜘蛛(scrapy.Spider):名称 = 'test2Crawler'allo ..
发布时间:2021-07-17 18:35:18 Python

Scrapy 的 request_fingerprint 方法返回 None 可以吗?

我想覆盖 Scrapy 的默认 RFPDupefilter 类如下: from scrapy.dupefilters import RFPDupeFilter类 URLDupefilter(RFPDupeFilter):def request_fingerprint(自我,请求):如果不是 request.url.endswith('.xml'):返回请求.url 理由是我希望通过使用抓取的 ..
发布时间:2021-07-17 18:35:15 Python

使scrapy按顺序跟随链接

我写了一个脚本,在第一阶段使用 Scrapy 查找链接,然后跟踪链接并在第二阶段从页面中提取一些内容.Scrapy 做它但它以无序的方式跟随链接,即我希望输出如下: link1 |data_extracted_from_link1_destination_page链接2 |data_extracted_from_link2_destination_page链接3 |data_extracted_ ..
发布时间:2021-07-17 18:35:12 Python

Scrapy:与二级网站交互时的程序组织

我正在使用 Scrapy 1.1 并且我有一个项目,我有一个蜘蛛“1"抓取站点 A(在那里我获取了 90% 的信息来填充我的项目).但是,根据站点 A 抓取的结果,我可能需要从站点 B 抓取其他信息.就开发程序而言,在蜘蛛“1"中抓取站点 B 是否更有意义,或者是否可以进行交互来自管道对象内的站点 B.我更喜欢后者,认为它可以解耦 2 个站点的抓取,但我不确定这是否可能或处理此用例的最佳方法.另一 ..
发布时间:2021-07-17 18:35:07 Python

scrapy:“加载更多结果"页

我正在尝试编写下面的抓取脚本来从下面的网站上抓取项目.我能够抓取第一页的项目,但还有更多关于 2000 页的内容我想全部抓取.有一个选项“加载更多结果",我也尝试抓取加载更多结果的页面,但无法做到这一点.请帮帮我. from scrapy.shell import open_in_browser导入scrapy从scrapy导入选择器导入数学导入json类 MyItems(scrapy.Item ..
发布时间:2021-07-17 18:35:04 其他开发