web-scraping相关内容
我正试图从名为CoinMarkets&的网站上获取加密货币的历史价格,但我做不到。我知道有很多关于这个话题的帖子,我几乎尝试了所有的帖子,但所有的方法对我都不起作用。我使用的是Windows10,我尝试了检查方法。我哪里做错了?我的代码是: dataurl = "https://coinmarketcap.com/currencies/bitcoin/historical-data/" d
..
我有一些使用rvest包从Web上抓取所需数据的经验,但我遇到了此页面的问题: https://www.nytimes.com/interactive/2020/us/covid-college-cases-tracker.html 如果您向下滚动一点,您将看到所有学校所在的部分。 我想要学校、案例和地点的数据。我应该注意到,有人在NYT GitHub上要求将此发布为CSV,他们
..
我编写了取消电影评论和详细评论的代码。 但它会丢弃已加载到页面的信息。(例如:如果有1000条评论,网页将只显示前10条评论。其他评论将在单击&q;加载更多&q;后显示。) require(rvest) require(dplyr) MOVIE_URL
..
我是Web抓取的新手,我尝试过几种跨多个页面执行rvest的方法。不知何故,它仍然不起作用,我只得到了15个结果,而不是这个类别中列出的207种产品。我做错了什么? library(rvest) all_df
..
我正在尝试对此website进行网络擦除。 如您所见,有一个主链接和一系列标题,您可以单击它们来访问文本。我最终想要得到的是主链接的所有这些子链接中的文本。我不太熟悉网络抓取,所以我四处看看,我想大概是这样的: library(rvest) x
..
根据解释,我设法从newspaper archive中抓取了一页here。 现在,我正在尝试通过运行一段代码来自动化访问页面列表的过程。 制作URL列表很容易,因为报纸的档案中有类似的链接模式: https://en.trend.az/archive/2021-XX-XX 问题在于编写一个循环来抓取标题、日期、时间、类别等数据。为简单起见,我尝试只使用2021-09-30到202
..
我正在尝试使用R(Packagervest)抓取网页上的表格数据。为此,数据需要位于html源文件中(这显然是rvest查找数据的地方),但在本例中并非如此。 但是,数据元素显示在检查面板的元素视图中: 源文件显示空表: 为什么数据显示在检查元素上而不显示在源文件上? 如何访问html格式的表格数据? 如果我无法通过html访问,我如何更改我的Web抓取策略? *网页 ht
..
我们正在从https://nbpa.com/agents/directory获取联系信息。页面上没有表格,而是
s里面有
元素: 我们可以使用以下命令获取此元素: agents_url % read_html() agents_page_el
..
我正在尝试使用https://divvy-tripdata.s3.amazonaws.com/index.htmlrvest库从页面的<;a href=&https://....zip";;>;元素中提取所有类似于rvest的URL: link
..
我有一个URL(https://forums.vwvortex.com/showthread.php?8829402-Atlas-V6-Oil-Change-Routine)可以从中抓取帖子。其中一些帖子是回复,其初始文本为“原始发帖人……”。我想刮除最初通过文本发布的帖子内的所有数据。例如, User df_text A Hi, how are you ? B This
..
我正在尝试搜索谷歌搜索的标题。但是,无论我用rvest尝试什么,结果总是返回character(0)。 以下是搜索rstudio的代码: library(rvest) library(dplyr) web1 % html_nodes(
..
将http://www.americashealthrankings.org/api/v1/downloads/131中的2016-年度表解压缩到CSV。该表有3个字段--状态、排名、值。获取以下错误: import urllib2 from bs4 import BeautifulSoup import csv url = 'http://www.americashealthranki
..
我使用以下代码逐个插入硬币的符号来从CoinMarkets提取一些数据,但由于每天都有新的密码添加到列表中,我需要从https://coinmarketcap.com/coins/views/all/一次提取所有密码,以便每天都有更新的列表。我如何修改下面的代码,使我首先拥有文本文件中的所有密码符号,然后再执行其余的操作?非常感谢您的帮助。 import time import reques
..
我尝试使用Selify来创建一个网站。 当我尝试获取硬币名称时,遇到了一个问题。因为‘td’中有2个元素 我怎样才能摆脱另一个我不想要的元素。或者只跟踪它的第一个元素。 (我找到了这个post,但我不确定它是否解决了我的问题) 这是我的全部代码 #driver chrome def website = 'https://www.bitkub.com/fee/cryptocurrency
..
我正在尝试从http://43.248.49.97/indexEn获取拉取数据 通常在浏览器上会有对上面的url的第一个请求返回错误412,第二个请求是对JS文件的请求,第三个请求也是对上面的url的请求,并返回OK(200)。 使用Selify时,第三个请求返回错误400-错误请求。 我使用的是Python。你知道为什么会发生这种情况吗?] 谢谢 推荐答案 我
..
我的主要目标是从该网站的表格中抓取内容 polygonscan.com/token/0x64a795562b02830ea4e43992e761c96d208fc58d 例如,我试图从表中选择内容,然后我想将表中的所有数据保存到一个.csv文件中,但在此任务开始时遇到了一个问题。我试图从第一行中选择内容,但Selify看起来没有从表区域中看到任何HTML内容。我的代码如下: fro
..
原问题:在Windows计算机上查看docker映像机密 我在没有停靠站的情况下得到解决方案时更新了问题 我正在跟踪RSelenium tutorial,当我尝试使用Tack VNC登录到容器时被卡住。 我需要获取镜像密码,但我被告知要运行的命令对我(Windows计算机)来说有点陌生 RUN apt-get update -qqy && apt-get -qqy ins
..
我正在尝试刮token info from poocoin。所有其他信息都可用,但我无法从图表中获取时间序列数据。 import requests, re from bs4 import BeautifulSoup import pandas as pd url = 'https://poocoin.app/tokens/0x7606267a4bfff2c5010c92924348c3e
..
我已经为下面的HTML代码编写了此表达式//*[contains(text(), "Brand:" )]。 数据-lang=“js”数据-隐藏=“假”数据-控制台=“真”数据-巴贝尔=“假”>
Informazioni prodotto
Brand:
..
我要删除此website中的数据(向下滚动时忽略它加载的香水)。 对于每种香水,我都想知道它的大小。为了查看它的大小,我需要点击将我带到另一个页面的香水。 假设当我在香水的url中时,我可以得到香水的大小,我如何才能编写一个程序来给我提供网站中每种香水页面的url? 这是当我有正确的url时查找香水大小的代码: import gspread from oauth2client.s
..