Scrapy、Splash和Connection被对方拒绝:10061 [英] Scrapy, Splash and Connection was refused by other side: 10061

查看:0
本文介绍了Scrapy、Splash和Connection被对方拒绝:10061的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我在一个由Java脚本驱动的站点上使用Scrppy和Splash。但是,我不能收到Connection was refused by other side: 10061错误。

我得到的日志如下:

[scrapy.downloadermiddlewares.retry] DEBUG: Retrying 
 <GET https://www2.deloitte.com/ch/en/misc/search.html#country=All#qr=accounting     
 via http://localhost:8050/render.html> (failed 1 times): Connection 
 was refused by other side: 10061: No connection could be made because 
 the target machine actively refused it..

和指向Twisted的回溯:

twisted.internet.error.ConnectionRefusedError: Connection was refused 
by other side: 10061: No connection could be made because the target 
machine actively refused it..
我已经检查了设置中的所有条目,尝试了各种USER_AGENTSROBOT条目,但没有成功。我还尝试使用--disable-private-mode启动开机画面,但没有效果。

奇怪的是,只需将相同的URL复制粘贴到浏览器中即可完美工作。

我使用了普通的命令行scrapy,也使用了API。有趣的是,当使用API时,当然,在PyCharm内的错误消息中单击目标的url时,#标签会被它的转义代码替换。因此,我感到困惑的是,在住房和城市发展部之下,这是另一个问题,还是两者是相互关联的。

甚至尝试查看通过Wireshark和Fiddler发送的包,但无法很好地理解结果,因为我以前从未使用过这些工具。

如有任何建议,我们将不胜感激。

推荐答案

终于找到了罪魁祸首。这确实是与码头集装箱的连接。

首先,我必须使用

检索码头容器IP
docker-machine ip

在码头。接下来,我必须调整scrapy settings.py文件中的SPLASH_URL,使其指向扩展坞机器IP,而不是localhost:8050,瞧…它起作用了。

不幸的是,到目前为止,我看到的消息来源还不清楚,所以我希望这对其他可怜的人第一次激起水花有一定的帮助。

这篇关于Scrapy、Splash和Connection被对方拒绝:10061的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆