r相关内容
通过其他so问题,我发现了如何获取标题,但我不知道Google代码将链接存储在哪里。 我想要标题及其相应链接的2栏数据框架。 library(rvest) library(tidyverse) dat
..
根据解释,我设法从newspaper archive中抓取了一页here。 现在,我正在尝试通过运行一段代码来自动化访问页面列表的过程。 制作URL列表很容易,因为报纸的档案中有类似的链接模式: https://en.trend.az/archive/2021-XX-XX 问题在于编写一个循环来抓取标题、日期、时间、类别等数据。为简单起见,我尝试只使用2021-09-30到202
..
我正在尝试使用rvest从网站上抓取一个HTML表。唯一的问题是,我要清理的表没有标记,第一行除外。如下所示: 6/21/2015 9:38 PM 5311 Lake Park UCPD African American Male Subject wa
..
我不确定是不是因为我的互联网速度很慢,但我正在尝试抓取一个在您向下滚动页面时加载信息的网站。我正在执行一个转到页面末尾的脚本,并等待Selify/Chrome服务器加载额外的内容。服务器确实会更新和加载新内容,因为我能够抓取最初不在页面上的信息,新内容会显示在Chrome查看器上,但它只更新一次。我将Sys.sleep()函数设置为每次等待一分钟,这样内容将有足够的时间加载,但它仍然不会多次更新。
..
我正在尝试使用R(Packagervest)抓取网页上的表格数据。为此,数据需要位于html源文件中(这显然是rvest查找数据的地方),但在本例中并非如此。 但是,数据元素显示在检查面板的元素视图中: 源文件显示空表: 为什么数据显示在检查元素上而不显示在源文件上? 如何访问html格式的表格数据? 如果我无法通过html访问,我如何更改我的Web抓取策略? *网页 ht
..
我们正在从https://nbpa.com/agents/directory获取联系信息。页面上没有表格,而是
s里面有
元素: 我们可以使用以下命令获取此元素: agents_url % read_html() agents_page_el
..
我正在尝试使用https://divvy-tripdata.s3.amazonaws.com/index.htmlrvest库从页面的<;a href=&https://....zip";;>;元素中提取所有类似于rvest的URL: link
..
我有一个URL(https://forums.vwvortex.com/showthread.php?8829402-Atlas-V6-Oil-Change-Routine)可以从中抓取帖子。其中一些帖子是回复,其初始文本为“原始发帖人……”。我想刮除最初通过文本发布的帖子内的所有数据。例如, User df_text A Hi, how are you ? B This
..
我正在尝试抓取下面列出的网站。我尝试通过使用rvest和下面的代码来完成此操作。 我的尝试是尝试复制我在Google Chrome中找到的PUT下载按钮。我不确定我做错了什么。我的reprex中列出了错误。 library(httr) library(rvest) library(dplyr) #> #> Attaching package: 'dplyr' #> The
..
我正在尝试搜索谷歌搜索的标题。但是,无论我用rvest尝试什么,结果总是返回character(0)。 以下是搜索rstudio的代码: library(rvest) library(dplyr) web1 % html_nodes(
..
我正在尝试计算组之间的变化百分比,其中有一个对照和几个处理,在我的数据框中被组织为组。因为我有很多观察,所以我使用dplyr。我不明白的是,如何有效地设定与哪一组进行比较?通常,我会将此任务分成多个步骤: 分组计算平均值 子集控制组以创建新的“控件”数据帧 将“控制”数据帧联接到第一个DF 计算对照和处理之间的变化百分比。 不过,我想知道dplyr是否已经有了一个更简单、更直截了
..
我想绘制一个带有重叠条形图(百分比)的ggplot2条形图。我有两个组,每个组由两个子组组成。 考虑以下可重现的示例: # Create data for ggplot data_ggp
..
我正在尝试在r中构造一个脚本,以强制它忽略找不到的对象。 我的脚本的简化版本如下 试用<;-sum(a,b,c,d,e) A-e是通过计算数据框中列的总和生成的数值向量。 我的问题是我想在多个不同的条件下使用相同的脚本(并且拥有比a-e多得多的对象)。对于这些情况中的一些,对象a-e中的一些可能不存在。因此,%r返回错误对象%d未找到。 为避免为每个条件生成唯一的
..
我对这个社区、r和一般的编程都是新手。(提前感谢您的耐心!)我正在做一个涉及贝叶斯网络的项目。 海峡问题。以下代码是在此站点上发布的,以回答名为“bnlearn Package R中的NA/NaN值”的问题 rm(list=ls()) ### generate random data (not simply independent binomials) set.seed(123) n
..
这是一个简单的问题,但我想不出如何做以下事情。这是我的数据: ID Time1 Time2 Time3 Time4 01 23 23 NA NA 02 21 21 21 NA 03 22 22 25 NA 04 29 29
..
我是R新手,正在解决一个问题。 我需要一个函数来根据给定大小的窗口中元素的平均值来计算向量中的缺失值。 但是,此窗口将移动,因为假设MyNA位于位置30,而我的窗口大小为10,则应计算x[20:40]的平均值。因此,对于每个找到的NA,窗口平均值将不同。 我一直在尝试: impute.to.window.mean
..
我需要加入R中的两个data.frame,它们都有两个ID候选者,但有很多丢失的数据(所以我不能只选择一个并过滤掉其余的)。 编辑两个数据集的可重现示例和所需结果: messy1
..
我需要计算每个id的可用日期之间的所有丢失日期,然后对称地上下移动以计算丢失。此外,我并不总是需要两个日期之间的平均值,例如:当我上下移动两个日期时,我只看到一个值,那么我就会计算那个值。 df1
..
我的数据帧如下: df
..
我刚开始在R中打包mice,但我正在尝试计算popmis中的5个数据集,然后分别匹配lmer()模型with()和最后的pool()。 我认为mice()中的pool()函数不适用于lme4包中的lmer()调用,对吗? 如果是这样的话,有没有办法编写一个定制的函数,它的作用类似于我下面的案例pool()? library(mice) library(lme4) imp
..