web-scraping相关内容

在R的市场上遇到了网络刮硬币的麻烦

我正试图从名为CoinMarkets&的网站上获取加密货币的历史价格,但我做不到。我知道有很多关于这个话题的帖子,我几乎尝试了所有的帖子,但所有的方法对我都不起作用。我使用的是Windows10,我尝试了检查方法。我哪里做错了?我的代码是: dataurl = "https://coinmarketcap.com/currencies/bitcoin/historical-data/" d ..
发布时间:2022-09-02 18:53:56 前端开发

Rrvest无法获取html_node

我有一些使用rvest包从Web上抓取所需数据的经验,但我遇到了此页面的问题: https://www.nytimes.com/interactive/2020/us/covid-college-cases-tracker.html 如果您向下滚动一点,您将看到所有学校所在的部分。 我想要学校、案例和地点的数据。我应该注意到,有人在NYT GitHub上要求将此发布为CSV,他们 ..
发布时间:2022-09-02 18:37:44 其他开发

刮掉一部IMDB电影的所有评论

我编写了取消电影评论和详细评论的代码。 但它会丢弃已加载到页面的信息。(例如:如果有1000条评论,网页将只显示前10条评论。其他评论将在单击&q;加载更多&q;后显示。) require(rvest) require(dplyr) MOVIE_URL ..
发布时间:2022-09-02 18:22:28 其他开发

Rvest网络抓取有限结果(R)

我是Web抓取的新手,我尝试过几种跨多个页面执行rvest的方法。不知何故,它仍然不起作用,我只得到了15个结果,而不是这个类别中列出的207种产品。我做错了什么? library(rvest) all_df ..
发布时间:2022-09-02 18:12:45 其他开发

使用RSelum从网站(报纸档案)中抓取多个网页

根据解释,我设法从newspaper archive中抓取了一页here。 现在,我正在尝试通过运行一段代码来自动化访问页面列表的过程。 制作URL列表很容易,因为报纸的档案中有类似的链接模式: https://en.trend.az/archive/2021-XX-XX 问题在于编写一个循环来抓取标题、日期、时间、类别等数据。为简单起见,我尝试只使用2021-09-30到202 ..
发布时间:2022-09-02 17:51:26 前端开发

源文件上未显示超文本标记语言表格

我正在尝试使用R(Packagervest)抓取网页上的表格数据。为此,数据需要位于html源文件中(这显然是rvest查找数据的地方),但在本例中并非如此。 但是,数据元素显示在检查面板的元素视图中: 源文件显示空表: 为什么数据显示在检查元素上而不显示在源文件上? 如何访问html格式的表格数据? 如果我无法通过html访问,我如何更改我的Web抓取策略? *网页 ht ..
发布时间:2022-09-02 17:29:12 前端开发

如何从CoinMarkets中提取所有加密符号

我使用以下代码逐个插入硬币的符号来从CoinMarkets提取一些数据,但由于每天都有新的密码添加到列表中,我需要从https://coinmarketcap.com/coins/views/all/一次提取所有密码,以便每天都有更新的列表。我如何修改下面的代码,使我首先拥有文本文件中的所有密码符号,然后再执行其余的操作?非常感谢您的帮助。 import time import reques ..
发布时间:2022-08-14 21:01:10 Python

按XPath查找元素。如何拆分XPath中我不想要的元素

我尝试使用Selify来创建一个网站。 当我尝试获取硬币名称时,遇到了一个问题。因为‘td’中有2个元素 我怎样才能摆脱另一个我不想要的元素。或者只跟踪它的第一个元素。 (我找到了这个post,但我不确定它是否解决了我的问题) 这是我的全部代码 #driver chrome def website = 'https://www.bitkub.com/fee/cryptocurrency ..
发布时间:2022-08-06 12:40:00 Python

Selify请求返回错误400-错误的请求

我正在尝试从http://43.248.49.97/indexEn获取拉取数据 通常在浏览器上会有对上面的url的第一个请求返回错误412,第二个请求是对JS文件的请求,第三个请求也是对上面的url的请求,并返回OK(200)。 使用Selify时,第三个请求返回错误400-错误请求。 我使用的是Python。你知道为什么会发生这种情况吗?] 谢谢 推荐答案 我 ..
发布时间:2022-08-05 23:30:54 其他开发

表中动态含量--含硒罐头

我的主要目标是从该网站的表格中抓取内容 polygonscan.com/token/0x64a795562b02830ea4e43992e761c96d208fc58d 例如,我试图从表中选择内容,然后我想将表中的所有数据保存到一个.csv文件中,但在此任务开始时遇到了一个问题。我试图从第一行中选择内容,但Selify看起来没有从表区域中看到任何HTML内容。我的代码如下: fro ..

如何在Windows机器上使用RSelum登录网站

原问题:在Windows计算机上查看docker映像机密 我在没有停靠站的情况下得到解决方案时更新了问题 我正在跟踪RSelenium tutorial,当我尝试使用Tack VNC登录到容器时被卡住。 我需要获取镜像密码,但我被告知要运行的命令对我(Windows计算机)来说有点陌生 RUN apt-get update -qqy && apt-get -qqy ins ..
发布时间:2022-07-22 22:09:45 其他开发

Selify可以点击不同的链接吗?

我要删除此website中的数据(向下滚动时忽略它加载的香水)。 对于每种香水,我都想知道它的大小。为了查看它的大小,我需要点击将我带到另一个页面的香水。 假设当我在香水的url中时,我可以得到香水的大小,我如何才能编写一个程序来给我提供网站中每种香水页面的url? 这是当我有正确的url时查找香水大小的代码: import gspread from oauth2client.s ..
发布时间:2022-06-21 18:25:31 Python