web-scraping相关内容

NodeJS网络抓取-形式深渊翻滚

我正在尝试使用X光来做以下事情,我不太熟悉网络刮削,我正在寻找一种适合我使用的技术。 浏览页面,在其中分配特定表单,设置一些变量,然后提交。 然后转到另一个页面,依此类推. 带示例和文档的基于NodeJS的最佳解决方案是什么? 谢谢。 推荐答案 有许多为Web抓取创建的节点模块。 其中一些是: cheerio osmosis x-ray noodlejs ..
发布时间:2022-02-25 10:34:54 其他开发

如何构建Etherscan网络大楼?

我正在构建一个网络爬行器,它每隔30秒不断刷新一批以太扫描URL,如果发生了任何未考虑在内的新传输,它会向我发送电子邮件通知和指向以太扫描上相关地址的链接,以便我可以手动检查它们。 我想要跟踪的地址之一在这里: https://etherscan.io/token/0xd6a55c63865affd67e2fb9f284f87b7a9e5ff3bd?a=0xd071f6e384cf27 ..

如何实现硒刮板的并行运行

我正在尝试使用scrapy和Selenium抓取一个javascript网站。我使用Selenium和Chrome驱动程序打开javascript网站,使用scrapy从当前页面抓取指向不同清单的所有链接,并将它们存储在列表中(到目前为止,尝试使用seleniumRequest跟踪链接并回调到解析新页面函数会导致很多错误)。然后,我循环遍历URL列表,在Selenium驱动程序中打开它们,并从页面 ..
发布时间:2022-02-21 12:15:58 Python

在 python 3 中使用 requests.get 获取数据之前等待页面加载

我有一个页面,我需要获取与 BS4 一起使用的源,但页面中间需要 1 秒(可能更少)来加载内容,并且 requests.get 在该部分之前捕获页面的源加载,如何在获取数据之前等待一秒钟? r = requests.get(URL + self.search, headers=USER_AGENT, timeout=5 )汤 = BeautifulSoup(r.content, 'html.pa ..

我被刮了,我该如何防止这种情况?

每周运行几次 IIS 7,我看到来自一个地理位置的大量 Google Analytics(分析)点击.他们正在查看的网址序列显然是由某种算法生成的,所以我知道我正在被抓取内容.有什么办法可以防止这种情况发生吗?谷歌不只是给我一个 IP 让我很沮丧. 解决方案 在反爬虫的世界里有很多技术.我只是将它们分类.如果您发现我的答案中缺少某些内容,请发表评论. A.基于 Web 请求的服务器端 ..
发布时间:2022-01-25 08:40:08 其他开发

使用 Julia 从大量 URL 中抓取字符串

新年快乐! 我刚刚开始学习 Julia,我为自己设定的第一个小挑战是从大量 URL 列表中抓取数据. 我在 CSV 文件中有 ca 50k URL(我使用 Julia 使用 Regex 从 JSON 中成功解析了这些 URL).我想抓取每一个并返回一个匹配的字符串(“/page/12345/view" - 其中 12345 是任何整数). 我设法使用 HTTP 和 Queryve ..
发布时间:2022-01-23 19:50:28 其他开发

在常量池中获取无效的字节标签:19

我正在创建一个 web 服务并收到类似的错误 org.apache.tomcat.util.bcel.classfile.ClassFormatException:常量池中的无效字节标记:19. 我使用的是 tomcat 8.0,java 版本是 1.8.0.152. 解决方案 标签类型为 19 的常量池条目是模块描述符;请参阅 JVM 规格表 4.4-A.我认为您已尝试在使用 ..
发布时间:2022-01-21 18:49:49 Java开发

BeautifulSoup 在 instagram html 页面中查找

我在查找 bs4 时遇到了问题. 我正在尝试在 html instagram 页面中自动查找一些 url,并且 (知道我是 python 菜鸟)我找不到在 html 源代码中自动搜索的方法示例中 "display_url": http..." 之后的 url. 我想让我的脚本搜索多个显示为“display_url"的url并下载它们.它们必须在源代码中出现的次数被提取. 用 bs ..
发布时间:2022-01-20 17:13:45 Python