scrapy相关内容

在Selify Python中使用antiaptcha插件来解决ReCAPTCHA问题

我最近开始在一个我从事了一段时间的涉及自动化的项目中使用Selify。该计划中的一个障碍是ReCaptcha系统,所以我决定使用反验证码作为服务,当我的机器人遇到验证码时可以解决它。我正确地安装了该插件,并在他们的网站上找到了一些使用Selify的测试代码。 from python_anticaptcha import AnticaptchaClient, NoCaptchaTaskProx ..
发布时间:2022-08-11 22:32:02 Python

如何使用停靠工具箱运行Splash

我正在尝试Scrppy和Splash,以便从网络上清除动态内容,我使用的是Windows10家庭版。有没有办法用Docker工具箱代替docker桌面来处理Splash? docker工具箱说,它是不能运行docker桌面的系统的替代方案。Docker桌面应用程序是Splash所必需的,它需要Windows 10专业版或企业版。 我找不到为Splash配置docker-工具箱的方法。有 ..
发布时间:2022-07-17 21:09:30 其他开发

Scrapy Splash Crawler Reator NotRestartable

我已经在Windows 10上使用Visual Studio代码开发了一个SRapy Splash Screper。 当我在没有runner.py文件的情况下像这样运行我的刮取器时,它会工作并生成抓取的内容int";out.json";:scrapy crawl mytest -o out.json 但是,当我使用runner.py文件在Visual Studio代码中 ..
发布时间:2022-04-18 17:54:32 Python

用于使用窗体身份验证绕过警报消息的scrapy

Scrapy是否可以爬网警报消息? 链接(例如http://domainhere/admin)加载到实际浏览器后,会显示一条带有表单的警告消息,用于填写用户名和密码。 或者是否有办法检查警报消息中的表单,以了解要填写哪些参数? PS:我确实有此网站的凭据,我只想通过Web爬网自动执行流程。 谢谢。 推荐答案 我通过执行以下操作实现了这一点: 已观察到在身份 ..
发布时间:2022-02-25 10:39:52 Python

使用Srapy和Splash跟踪javascript分页

我使用Scrapy和Splash来提取数据。我希望找到一种方法来遵循与javascript供电的分页。URL不会更改,无论您在哪个页面上,它始终是相同的。 Next 我已尝试使用Lua脚本和Splash单击该元素,但不起作用: ..
发布时间:2022-02-22 18:58:25 Python

如何实现硒刮板的并行运行

我正在尝试使用scrapy和Selenium抓取一个javascript网站。我使用Selenium和Chrome驱动程序打开javascript网站,使用scrapy从当前页面抓取指向不同清单的所有链接,并将它们存储在列表中(到目前为止,尝试使用seleniumRequest跟踪链接并回调到解析新页面函数会导致很多错误)。然后,我循环遍历URL列表,在Selenium驱动程序中打开它们,并从页面 ..
发布时间:2022-02-21 12:15:58 Python

拒绝加载脚本,因为它违反了以下内容安全策略指令:script-src error with ChromeDriver Chrome and Selenium

我正在尝试从这些链接中获取电话号码“https://www.practo.com/delhi/doctor/dr-meeka-gulati-dentist-3?specialization=Dentist&practice_id=722421" 和 " 如果元素存在,它会抓取电话号码,否则电话号码为无 蜘蛛代码: 从 selenium 导入 webdriver从 selenium.web ..

是否可以从 Scrapy spider 运行另一个蜘蛛?

现在我有 2 只蜘蛛,我想做的是 Spider 1 转到 url1 并且如果出现 url2 ,用 url22/代码>.也使用管道保存url1的内容. 蜘蛛2去url2做点什么. 由于两种蜘蛛的复杂性,我想将它们分开. 我使用 scrapy crawl 的尝试: def 解析(自我,响应):p = 多处理.Process(目标=self.testfunc())p.join()p ..
发布时间:2022-01-12 13:00:12 Python

按顺序抓取 URL

所以,我的问题比较简单.我有一个爬虫爬取多个站点,我需要它按照我在代码中编写的顺序返回数据.贴在下面. 从 scrapy.spider 导入 BaseSpider从 scrapy.selector 导入 HtmlXPathSelector从 mlbodds.items 导入 mlboddsItem类MLBoddsSpider(BaseSpider):名称=“sbrforum.com"allowe ..
发布时间:2022-01-08 13:39:57 Python

使用 Google Cloud Functions 时带有 scrapy 的 ReactorNotRestartable

我正在尝试使用 Google Cloud Functions 发送多个抓取请求.但是,我似乎收到了 ReactorNotRestartable 错误.从 StackOverflow 上的其他帖子,例如 这个,我知道这是因为它不是可以重新启动反应器,特别是在执行循环时. 解决这个问题的方法是将 start() 放在 for 循环之外.但是,对于 Cloud Functions,这是不可能的,因 ..
发布时间:2022-01-08 11:06:42 Python