plyr相关内容
我有一个看起来像这样的数据框 a b c d1 1 1 01 1 1 2001 1 1 3001 1 2 01 1 2 6001 2 3 01 2 3 1001 2 3 2001 3 1 0 我有一个看起来像这样的数据框 a b c d1 1 1 2501 1 2 6001 2 3 1501 3 1 0 我现在正在做{ n=nrow(子集(Wallmart, a==i & b==j
..
我的聚合需求因列/data.frames 而异.我想动态地将“list"参数传递给data.table. 作为一个最小的例子: require(data.table)类型
..
这个问题是关于将任何非循环同构或异构数据结构集合转换为数据帧的通用机制.这在处理大量 JSON 文档的摄取或处理作为字典数组的大型 JSON 文档时特别有用. 有几个 SO 问题涉及处理深度嵌套的 JSON 结构并使用 plyr、lapply 等功能将它们转换为数据帧.所有问题和答案我发现是关于特定情况的,而不是提供处理复杂 JSON 数据结构集合的通用方法. 在 Python 和 R
..
示例数据: set.seed(1)df 请告诉我,我如何将 df$value 中的 NA 替换为其他月份的中位数?“值"必须包含同一月份所有先前值的中值.也就是说,如果当前月份是 5 月,“值"必须包含 5 月份所有先前值的中值. 解决方案 或者用ave df 既然有这么多答案,让我们看看哪个最快. plyr2
..
我正在寻找一种有效的(计算机资源方面和学习/实施方面)方法来合并两个较大的(大小>100 万/300 KB RData 文件)数据帧. base R 中的“merge"和 plyr 中的“join"似乎用尽了我所有的内存,导致我的系统崩溃. 示例 加载测试数据框 试试 test.merged 或 test.merged - 以下帖子提供了合并和替代方案的列表:
..
我知道这里有很多关于使用 do.call 或 ldply 将 data.frames 列表转换为单个 data.frame 的方法的问题,但这个问题是关于理解这两种方法的内部工作原理并尝试弄清楚为什么我无法将具有相同结构、相同字段名称等的近 100 万个 df 的列表连接到单个 data.frame 中.每个 data.frame 为 1 行 21 列. 数据开始是一个 JSON 文件,我使
..
我认为我使用 plyr 不正确.有人可以告诉我这是否是“高效"的 plyr 代码吗? require(plyr)plyr
..
我的数据集中有一列,其中时间段 (Time) 是 a-b 范围内的整数.有时,任何给定的组都可能缺少时间段.我想用 NA 填充这些行.以下是 1 个(几个 1000 个)组的示例数据. structure(list(Id = c(1, 1, 1, 1), Time = c(1, 2, 4, 5), Value = c(0.568780482159894,-0.7207749516298, 1.2
..
我有一个数据集 data,其中包含一个时间戳和一组其他变量,每个时间戳都有值.我正在尝试在 plyr 中使用 ddply 来创建一个新的数据框,该数据框是分组日变量的摘要(例如平均值). 如何让 ddply 按天分组?或者我怎样才能从时间戳中的日期 (%d) 创建一个组或分组变量? 结果数据框将包含 data 中每天的平均值. 库(plyr)数据
..
我正在尝试学习 R,并且我在 SAS 中做了 10 多年的一些事情,但我无法完全弄清楚在 R 中做的最佳方法.拿这些数据: id 类 t 需要计数-- ----- ---------- ----- --------1 A 2010-01-15 1 11 A 2010-02-15 2 31 B 2010-04-15 3 31 B 2010-09-15 4 42 A 2010-01-15 5 52
..
我正在尝试计算由 gvkey(1001、1384 等...)识别的公司的季度数据的价格变化百分比.它是相应的季度股票价格,PRCCQ. gvkey PRCCQ1 1004 23.7502 1004 13.8753 1004 11.2504 1004 10.3755 1004 13.6006 1004 14.0007 1004 17.0608 1004 8.1509 1004 7.40010 1
..
示例数据: set.seed(1)df
..
我有一个包含日期和 ID 的数据框.我需要根据每个日期向此数据框中添加多列.我使用 ddply 来做到这一点如下: ddply(df, "dt", transform, new_column1 = myfun(column_name_1)) 但是,我有一堆列名,想添加多个新列.有没有办法可以传递一个字符串来转换而不是 new_column1?例如我试过: ddply(df, "d
..
这确实挑战了我调试 R 代码的能力. 我想使用 ddply() 将相同的函数应用到按顺序命名的不同列;例如.a、b、c.为此,我打算将列名作为字符串重复传递,并使用 eval(parse(text=ColName)) 允许函数引用它.我从另一个答案中汲取了这种技巧. 这很有效,直到我将 ddply() 放入另一个函数中.这是示例代码: # 需要的包:图书馆(plyr)myFuncti
..
我试图在 R 中找到惯用的方法,通过某个索引向量对数字向量进行分区,找到该分区中所有数字的总和,然后将每个单独的条目除以该分区总和.换句话说,如果我从这个开始: df 我希望输出创建一个向量(我们称之为 z): c(1/(1+2), 2/(1+2), 3/(3+4), 3/(3+4), 5/(5+6), 6/(5+6)) 如果我这样做是 SQL 并且可以使用窗口函数,我会这样做: 选择
..
我有一些代码测试片段,我在不同的机器上运行过,总是得到相同的结果.我认为各种 do... 包背后的哲学是它们可以互换用作 foreach 的 %dopar% 的后端.为什么不是这样? 例如,此代码片段有效: 库(plyr)图书馆(doMC)注册DoMC()x
..
我经常需要制作堆叠条形图来比较变量,并且因为我在 R 中完成所有统计数据,所以我更喜欢使用 ggplot2 在 R 中完成我的所有图形.我想学习如何做两件事: 首先,我希望能够为每个变量添加适当的百分比刻度线,而不是按计数添加刻度线.计数会令人困惑,这就是我完全去掉轴标签的原因. 其次,必须有一种更简单的方法来重新组织我的数据以实现这一目标.这似乎是我应该能够在 ggplot2 中使用
..
在 R 中,我可以使用我感兴趣的特定列名作为数组返回计数结果,如下所示. require("plyr")bevs
..
我一直在浏览有关汇总数据的帖子,但似乎还没有找到我要找的东西. 我希望创建一个汇总的“计数表",让我可以查看给患者服用某种药物的频率.一些患者同时接受多种药物治疗这一事实并不重要,因为我只想总结所有给予的药物,然后计算每种药物类别占所有药物治疗的百分比.问题是,我不知道给定的可能药物的名称,它们“隐藏"在 data.frame 中的某处,因此,我必须指定哪些列 R 必须首先查看以创建一个“列
..
我有一堆长度不同的数据帧,范围从大约.15,000 到 500,000.对于这些数据帧中的每一个,我想将它们分成更小的数据帧,每个数据帧有 300 行,我将对其进行进一步处理.我该怎么做? 这(按数量拆分数据帧行) 提供了部分答案,但它不起作用,因为并非所有数据帧的长度都是 300 的倍数. 如果可以同时提供 plyr 和非 plyr 解决方案,我们将不胜感激. 谢谢! 解
..