plyr相关内容

R:JSON 到 data.frame 的通用展平

这个问题是关于将任何非循环同构或异构数据结构集合转换为数据帧的通用机制.这在处理大量 JSON 文档的摄取或处理作为字典数组的大型 JSON 文档时特别有用. 有几个 SO 问题涉及处理深度嵌套的 JSON 结构并使用 plyr、lapply 等功能将它们转换为数据帧.所有问题和答案我发现是关于特定情况的,而不是提供处理复杂 JSON 数据结构集合的通用方法. 在 Python 和 R ..
发布时间:2022-01-13 19:10:59 其他开发

如何用中位数填充 NA?

示例数据: set.seed(1)df 请告诉我,我如何将 df$value 中的 NA 替换为其他月份的中位数?“值"必须包含同一月份所有先前值的中值.也就是说,如果当前月份是 5 月,“值"必须包含 5 月份所有先前值的中值. 解决方案 或者用ave df 既然有这么多答案,让我们看看哪个最快. plyr2 ..
发布时间:2022-01-13 19:03:19 其他开发

合并较大数据的有效替代方法.框架 R

我正在寻找一种有效的(计算机资源方面和学习/实施方面)方法来合并两个较大的(大小>100 万/300 KB RData 文件)数据帧. base R 中的“merge"和 plyr 中的“join"似乎用尽了我所有的内存,导致我的系统崩溃. 示例 加载测试数据框 试试 test.merged 或 test.merged - 以下帖子提供了合并和替代方案的列表: ..
发布时间:2022-01-13 19:02:16 其他开发

使用 do.call 和 ldply 将一长串 data.frames(约 100 万)转换为单个 data.frame 时遇到问题

我知道这里有很多关于使用 do.call 或 ldply 将 data.frames 列表转换为单个 data.frame 的方法的问题,但这个问题是关于理解这两种方法的内部工作原理并尝试弄清楚为什么我无法将具有相同结构、相同字段名称等的近 100 万个 df 的列表连接到单个 data.frame 中.每个 data.frame 为 1 行 21 列. 数据开始是一个 JSON 文件,我使 ..
发布时间:2022-01-13 18:58:01 其他开发

为丢失的时间步添加行的最快方法?

我的数据集中有一列,其中时间段 (Time) 是 a-b 范围内的整数.有时,任何给定的组都可能缺少时间段.我想用 NA 填充这些行.以下是 1 个(几个 1000 个)组的示例数据. structure(list(Id = c(1, 1, 1, 1), Time = c(1, 2, 4, 5), Value = c(0.568780482159894,-0.7207749516298, 1.2 ..
发布时间:2022-01-13 18:38:42 其他开发

从时间戳按天汇总数据帧

我有一个数据集 data,其中包含一个时间戳和一组其他变量,每个时间戳都有值.我正在尝试在 plyr 中使用 ddply 来创建一个新的数据框,该数据框是分组日变量的摘要(例如平均值). 如何让 ddply 按天分组?或者我怎样才能从时间戳中的日期 (%d) 创建一个组或分组变量? 结果数据框将包含 data 中每天的平均值. 库(plyr)数据 ..
发布时间:2022-01-13 09:20:31 其他开发

通过 id 变量计算滚动总和,缺少时间点

我正在尝试学习 R,并且我在 SAS 中做了 10 多年的一些事情,但我无法完全弄清楚在 R 中做的最佳方法.拿这些数据: id 类 t 需要计数-- ----- ---------- ----- --------1 A 2010-01-15 1 11 A 2010-02-15 2 31 B 2010-04-15 3 31 B 2010-09-15 4 42 A 2010-01-15 5 52 ..
发布时间:2022-01-08 17:00:08 其他开发

转换数据框字符串变量名称

我有一个包含日期和 ID 的数据框.我需要根据每个日期向此数据框中添加多列.我使用 ddply 来做到这一点如下: ddply(df, "dt", transform, new_column1 = myfun(column_name_1)) 但是,我有一堆列名,想添加多个新列.有没有办法可以传递一个字符串来转换而不是 new_column1?例如我试过: ddply(df, "d ..
发布时间:2022-01-04 23:35:51 其他开发

在函数内使用 ddply 找不到对象错误

这确实挑战了我调试 R 代码的能力. 我想使用 ddply() 将相同的函数应用到按顺序命名的不同列;例如.a、b、c.为此,我打算将列名作为字符串重复传递,并使用 eval(parse(text=ColName)) 允许函数引用它.我从另一个答案中汲取了这种技巧. 这很有效,直到我将 ddply() 放入另一个函数中.这是示例代码: # 需要的包:图书馆(plyr)myFuncti ..
发布时间:2022-01-04 11:29:11 其他开发

用于按索引对向量进行分区并对该分区执行操作的惯用 R 代码

我试图在 R 中找到惯用的方法,通过某个索引向量对数字向量进行分区,找到该分区中所有数字的总和,然后将每个单独的条目除以该分区总和.换句话说,如果我从这个开始: df 我希望输出创建一个向量(我们称之为 z): c(1/(1+2), 2/(1+2), 3/(3+4), 3/(3+4), 5/(5+6), 6/(5+6)) 如果我这样做是 SQL 并且可以使用窗口函数,我会这样做: 选择 ..
发布时间:2022-01-02 13:21:49 其他开发

如何更好地从 ggplot2 创建具有多个变量的堆叠条形图?

我经常需要制作堆叠条形图来比较变量,并且因为我在 R 中完成所有统计数据,所以我更喜欢使用 ggplot2 在 R 中完成我的所有图形.我想学习如何做两件事: 首先,我希望能够为每个变量添加适当的百分比刻度线,而不是按计数添加刻度线.计数会令人困惑,这就是我完全去掉轴标签的原因. 其次,必须有一种更简单的方法来重新组织我的数据以实现这一目标.这似乎是我应该能够在 ggplot2 中使用 ..
发布时间:2021-12-30 19:04:24 其他开发

在不知道 R 中的 ID 的情况下,如何根据唯一 ID 汇总列?

我一直在浏览有关汇总数据的帖子,但似乎还没有找到我要找的东西. 我希望创建一个汇总的“计数表",让我可以查看给患者服用某种药物的频率.一些患者同时接受多种药物治疗这一事实并不重要,因为我只想总结所有给予的药物,然后计算每种药物类别占所有药物治疗的百分比.问题是,我不知道给定的可能药物的名称,它们“隐藏"在 data.frame 中的某处,因此,我必须指定哪些列 R 必须首先查看以创建一个“列 ..
发布时间:2021-12-30 16:21:54 其他开发

将数据帧拆分为固定大小的行

我有一堆长度不同的数据帧,范围从大约.15,000 到 500,000.对于这些数据帧中的每一个,我想将它们分成更小的数据帧,每个数据帧有 300 行,我将对其进行进一步处理.我该怎么做? 这(按数量拆分数据帧行) 提供了部分答案,但它不起作用,因为并非所有数据帧的长度都是 300 的倍数. 如果可以同时提供 plyr 和非 plyr 解决方案,我们将不胜感激. 谢谢! 解 ..
发布时间:2021-12-28 12:00:44 其他开发