plyr相关内容

为更大的数据进行合并的有效替代方案. R

我正在寻找一种有效的(包括计算机资源方面的和学习/实施方面的)方法来合并两个较大的(大小 > 100 万/300 KB RData 文件)数据帧. base R 中的“merge"和 plyr 中的“join"似乎耗尽了我所有的内存,有效地使我的系统崩溃. 示例 加载测试数据框 然后尝试 test.merged 或 test.merged —— 以下帖子提供了合并 ..
发布时间:2021-12-27 22:02:13 其他开发

dplyr 的round_any 等价物?

我正在尝试切换到“新"tidyverse 生态系统并尝试避免从 Wickham et al. 加载旧包.我以前依赖我的编码.我找到了 round_any 函数来自 plyr 在我需要自定义绘图的许多情况下很有用、表格等.例如 x tidyverse 中 plyr 包中的 round_any 函数是否有等效函数? 解决方案 ggplot::cut_width 在其中一条评论中指出,它甚 ..
发布时间:2021-12-23 12:55:48 其他开发

是否有替代“重估"的方法?使用 dplyr 时来自 plyr 的功能?

我很喜欢 revalue 函数是用于替换字符串的 plyr.简单易记. 但是,我已将新代码迁移到 dplyr,它似乎没有 revalue 功能.dplyr 中用于处理以前使用 revalue 完成的事情的公认习惯用法是什么? 解决方案 有一个 recode 功能可用,从 dplyr 版本 dplyr_0.5.0 开始,它看起来非常类似于 重估来自plyr. 从 recode 文 ..
发布时间:2021-12-23 12:55:32 其他开发

如何在特定条件下创建等级变量?

我的数据包含时间变量和选择的品牌变量,如下所示.time 表示购物时间,choosebrand 表示当时购买的品牌. 使用此数据,我想创建排名变量,如第三列、第四列等所示. 品牌排名(例如,品牌 1 - 品牌 3)应基于过去 36 小时.因此,要计算商店时间为 "2013-09-01 08:54:00 UTC" 的第二行的排名,排名应基于所有 chosenbrand时间前 36 小时内 ..
发布时间:2021-12-23 12:54:45 其他开发

与 dplyr 的分组关联(仅适用于控制台)

我正在尝试使用 dplyr 来计算分组相关性,但显然有些错误,因为下面的代码仅在控制台中有效: require(dplyr)set.seed(123)xx = data.frame(group = rep(1:4, 100), a = rnorm(400), b = rnorm(400))gp = group_by(xx, group)总结(gp,cor(a,b))组 cor(a, b)1 1 ..
发布时间:2021-12-23 12:52:54 其他开发

总平均值用 dplyr 表示 R 中的组

假设我有一个类似 的数据集 df 现在我的目标是在同一数据中找到“数据的总平均值"和“R 中的子组平均值".所以,我可以说我应该得到类似 # 潜水 Total_Mean 速度# 1 潜水 1 0.52 0.5790946# 2 潜水 2 0.52 0.4864489 我正在使用代码 df%>% summarise(avg=mean(speed))%>%group_by(潜水)%>%总 ..
发布时间:2021-12-23 12:44:59 其他开发

如何在 R 中扩展大型数据框

我有一个数据框 df 我想扩展它,以便有 id 和 spp 的每个组合,并且对于当前不在数据帧中的每个组合都有 y = 0 .数据框目前大约有 100,000 行和 15 列.展开后大约有 300,000 列(在我的实际数据集中有 17 个 spp 的唯一值). 对于 id 的每个值,date 都是相同的(例如,当 id = 2 时,日期总是 = 1985-08-01).在我的真实数据 ..
发布时间:2021-12-23 12:32:31 其他开发

按组缩放/标准化列

我有一个如下所示的数据框: 商店温度失业总和_销售额1 1 42.31 8.106 16436912 1 38.51 8.106 16419573 1 39.93 8.106 16119684 1 46.63 8.106 14097285 1 46.50 8.106 15548076 1 57.79 8.106 1439542 对于每个“商店",我想标准化/缩放两列(“Sum_sales"和 ..
发布时间:2021-12-23 12:30:42 其他开发

使用 dplyr 更改变量的值

我经常需要根据不同变量的值更改变量的值,如下所示: mtcars$mpg[mtcars$cyl == 4] 我尝试用 dplyr 做这件事,但失败得很惨: mtcars %>%变异(mpg = mpg == NA[cyl == 4])%>%as.data.frame() 我怎样才能用 dplyr 做到这一点? 解决方案 我们可以使用replace将'mpg'中的值改为NA对应 c ..
发布时间:2021-12-23 12:14:04 其他开发

使用 dplyr 按组计算行数

我正在使用 mtcars 数据集.我想找到特定数据组合的记录数.与 SQL 中的 count(*) group by 子句非常相似.来自 plyr 的 ddply() 对我有用 库(plyr)ddply(mtcars, .(cyl,gear),nrow) 有输出 圆柱齿轮 V11 4 3 12 4 4 83 4 5 24 6 3 25 6 4 46 6 5 17 8 3 128 8 5 2 ..
发布时间:2021-12-23 12:12:34 其他开发

dplyr 总结:相当于“.drop=FALSE"在输出中保留零长度的组

当将 summarise 与 plyr 的 ddply 函数一起使用时,默认情况下会删除空类别.您可以通过添加 .drop = FALSE 来更改此行为.但是,这在将 summarise 与 dplyr 一起使用时不起作用.有没有其他方法可以在结果中保留空类别? 这里有一个虚假数据的例子. 库(dplyr)df = data.frame(a=rep(1:3,4), b=rep(1:2,6) ..
发布时间:2021-12-23 12:09:33 其他开发

R - 在可变间隔内计算滚动统计的更快方法

我很好奇是否有人能想出一种(更快)方法来计算可变时间间隔(窗口)内的滚动统计数据(滚动平均值、中位数、百分位数等). 也就是说,假设给定随机定时观察(即不是每日或每周数据,观察只有一个时间戳,如滴答数据),并假设您想查看中心和离差统计数据能够扩大和缩小计算这些统计数据的时间间隔. 我做了一个简单的 for 循环来做到这一点.但它显然运行得很慢(事实上,我认为我的循环仍在运行我为测试其速 ..
发布时间:2021-12-14 20:42:32 其他开发

dplyr:“n() 中的错误:不应直接调用函数";

我正在尝试重现 dplyr 包中的示例之一,但收到此错误消息.我期待看到每个组合的频率产生一个新的列 n.我错过了什么?我三次检查了包是否已加载. 库(dplyr)# 总结剥离单层分组by_vs_am n() 中的错误:不应直接调用此函数 解决方案 我想你在同一个会话中加载了 dplyr 和 plyr.dplyr 不是 plyr.ddply 不是 dplyr 包中的函数. d ..
发布时间:2021-12-07 23:03:14 其他开发

使用 dplyr 将函数应用于表的每一行?

在使用 plyr 时,我经常发现将 adply 用于必须应用于每一行的标量函数. 例如 数据(虹膜)图书馆(plyr)头(adply(iris, 1, transform , Max.Len= max(Sepal.Length,Petal.Length)))Sepal.Length Sepal.Width Petal.Length Petal.Width 物种 Max.Len1 5.1 3 ..
发布时间:2021-12-01 21:21:22 其他开发