plyr相关内容
我有以下 data.frames: a 注意:在两个表中都没有定义 v1 或 v2 的 ID;每个 id 值的每列中只有一个唯一的非 NA 值 我想根据“id"的匹配值合并这些数据框: ab 合并(a,b,by =“
..
我正在寻找一种有效的(包括计算机资源方面的和学习/实施方面的)方法来合并两个较大的(大小 > 100 万/300 KB RData 文件)数据帧. base R 中的“merge"和 plyr 中的“join"似乎耗尽了我所有的内存,有效地使我的系统崩溃. 示例 加载测试数据框 然后尝试 test.merged 或 test.merged —— 以下帖子提供了合并
..
Windows 7 上的 R 版本 2.11.1 32 位 我得到了两个数据集:data_A 和 data_B: 数据_A USER_A USER_B ACTION1 11 0.31 13 0.251 16 0.631 17 0.262 11 0.142 14 0.28 数据_B USER_A USER_B ACTION1 13 0.171 14 0.272 11 0.25 现
..
我正在尝试切换到“新"tidyverse 生态系统并尝试避免从 Wickham et al. 加载旧包.我以前依赖我的编码.我找到了 round_any 函数来自 plyr 在我需要自定义绘图的许多情况下很有用、表格等.例如 x tidyverse 中 plyr 包中的 round_any 函数是否有等效函数? 解决方案 ggplot::cut_width 在其中一条评论中指出,它甚
..
我很喜欢 revalue 函数是用于替换字符串的 plyr.简单易记. 但是,我已将新代码迁移到 dplyr,它似乎没有 revalue 功能.dplyr 中用于处理以前使用 revalue 完成的事情的公认习惯用法是什么? 解决方案 有一个 recode 功能可用,从 dplyr 版本 dplyr_0.5.0 开始,它看起来非常类似于 重估来自plyr. 从 recode 文
..
对于 tidyverse 用户,dplyr 是处理数据的新方式. 对于试图避免使用旧包 plyr 的用户,dplyr 中 rbind.fill 的等效功能是什么? 解决方案 是的.dplyr::bind_rows 功劳归于评论者.
..
我的数据包含时间变量和选择的品牌变量,如下所示.time 表示购物时间,choosebrand 表示当时购买的品牌. 使用此数据,我想创建排名变量,如第三列、第四列等所示. 品牌排名(例如,品牌 1 - 品牌 3)应基于过去 36 小时.因此,要计算商店时间为 "2013-09-01 08:54:00 UTC" 的第二行的排名,排名应基于所有 chosenbrand时间前 36 小时内
..
我正在尝试使用 dplyr 来计算分组相关性,但显然有些错误,因为下面的代码仅在控制台中有效: require(dplyr)set.seed(123)xx = data.frame(group = rep(1:4, 100), a = rnorm(400), b = rnorm(400))gp = group_by(xx, group)总结(gp,cor(a,b))组 cor(a, b)1 1
..
假设我有一个类似 的数据集 df 现在我的目标是在同一数据中找到“数据的总平均值"和“R 中的子组平均值".所以,我可以说我应该得到类似 # 潜水 Total_Mean 速度# 1 潜水 1 0.52 0.5790946# 2 潜水 2 0.52 0.4864489 我正在使用代码 df%>% summarise(avg=mean(speed))%>%group_by(潜水)%>%总
..
我有一个看起来像这样的数据框 a b c d1 1 1 01 1 1 2001 1 1 3001 1 2 01 1 2 6001 2 3 01 2 3 1001 2 3 2001 3 1 0 我有一个看起来像这样的数据框 a b c d1 1 1 2501 1 2 6001 2 3 1501 3 1 0 我目前正在做{ n=nrow(subset(Wallmart, a==i &
..
我正在尝试从 ggplot2 中的更简单的人口金字塔 使用 ggplot2 和 dplyr(而不是 plyr). 这是带有 plyr 和种子的原始示例 set.seed(321)测试
..
我有一个数据框 df 我想扩展它,以便有 id 和 spp 的每个组合,并且对于当前不在数据帧中的每个组合都有 y = 0 .数据框目前大约有 100,000 行和 15 列.展开后大约有 300,000 列(在我的实际数据集中有 17 个 spp 的唯一值). 对于 id 的每个值,date 都是相同的(例如,当 id = 2 时,日期总是 = 1985-08-01).在我的真实数据
..
我有一个如下所示的数据框: 商店温度失业总和_销售额1 1 42.31 8.106 16436912 1 38.51 8.106 16419573 1 39.93 8.106 16119684 1 46.63 8.106 14097285 1 46.50 8.106 15548076 1 57.79 8.106 1439542 对于每个“商店",我想标准化/缩放两列(“Sum_sales"和
..
我经常需要根据不同变量的值更改变量的值,如下所示: mtcars$mpg[mtcars$cyl == 4] 我尝试用 dplyr 做这件事,但失败得很惨: mtcars %>%变异(mpg = mpg == NA[cyl == 4])%>%as.data.frame() 我怎样才能用 dplyr 做到这一点? 解决方案 我们可以使用replace将'mpg'中的值改为NA对应 c
..
我正在使用 mtcars 数据集.我想找到特定数据组合的记录数.与 SQL 中的 count(*) group by 子句非常相似.来自 plyr 的 ddply() 对我有用 库(plyr)ddply(mtcars, .(cyl,gear),nrow) 有输出 圆柱齿轮 V11 4 3 12 4 4 83 4 5 24 6 3 25 6 4 46 6 5 17 8 3 128 8 5 2
..
当列元素具有不同数量的字符串时,我遇到拆分列值的问题.我可以在 plyr 中做到这一点,例如: 库(plyr)列
..
当将 summarise 与 plyr 的 ddply 函数一起使用时,默认情况下会删除空类别.您可以通过添加 .drop = FALSE 来更改此行为.但是,这在将 summarise 与 dplyr 一起使用时不起作用.有没有其他方法可以在结果中保留空类别? 这里有一个虚假数据的例子. 库(dplyr)df = data.frame(a=rep(1:3,4), b=rep(1:2,6)
..
我很好奇是否有人能想出一种(更快)方法来计算可变时间间隔(窗口)内的滚动统计数据(滚动平均值、中位数、百分位数等). 也就是说,假设给定随机定时观察(即不是每日或每周数据,观察只有一个时间戳,如滴答数据),并假设您想查看中心和离差统计数据能够扩大和缩小计算这些统计数据的时间间隔. 我做了一个简单的 for 循环来做到这一点.但它显然运行得很慢(事实上,我认为我的循环仍在运行我为测试其速
..
我正在尝试重现 dplyr 包中的示例之一,但收到此错误消息.我期待看到每个组合的频率产生一个新的列 n.我错过了什么?我三次检查了包是否已加载. 库(dplyr)# 总结剥离单层分组by_vs_am n() 中的错误:不应直接调用此函数 解决方案 我想你在同一个会话中加载了 dplyr 和 plyr.dplyr 不是 plyr.ddply 不是 dplyr 包中的函数. d
..
在使用 plyr 时,我经常发现将 adply 用于必须应用于每一行的标量函数. 例如 数据(虹膜)图书馆(plyr)头(adply(iris, 1, transform , Max.Len= max(Sepal.Length,Petal.Length)))Sepal.Length Sepal.Width Petal.Length Petal.Width 物种 Max.Len1 5.1 3
..