重塑2:聚合函数的多重结果? [英] reshape2: multiple results of aggregation function?

查看:8
本文介绍了重塑2:聚合函数的多重结果?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

据我所知,reshape2中的*CAST操作失去了result_variable功能。Hadley暗示使用plyr来实现此目的(将多个结果列追加到输入数据框中)。如何实现文档示例...

aqm <- melt(airquality, id=c("month", "day"), na.rm=TRUE)
cast(aqm, month ~ variable + result_variable, range)

使用reshape2(dcast)和plyr(ddply)?

推荐答案

由于‘reshape2’和‘plyr’程序包的灵活性,此问题有多个答案。我将在这里展示一个最容易理解的例子:

library(reshape2)
library(plyr)

aqm <- melt(airquality, id=c("Month", "Day"), na.rm=TRUE)
aqm_ply <- ddply(aqm, .(Month, variable), summarize, min=min(value), max=max(value))
aqm_melt <- melt(aqm_ply, id=c("Month", "variable"), variable.name="variable2")
dcast(aqm_melt, Month ~ variable + variable2)

#   Month Ozone_min Ozone_max Solar.R_min Solar.R_max Wind_min Wind_max Temp_min  Temp_max
# 1     5         1       115           8         334      5.7     20.1       56        81
# 2     6        12        71          31         332      1.7     20.7       65        93
# 3     7         7       135           7         314      4.1     14.9       73        92
# 4     8         9       168          24         273      2.3     15.5       72        97
# 5     9         7        96          14         259      2.8     16.6       63        93

第一步:让我们将其分解为几个步骤。首先,让我们撇开‘AQM’的定义,从融化的数据开始工作。这将使该示例更易于理解。

aqm <- melt(airquality, id=c("Month", "Day"), na.rm=TRUE)

#     Month Day variable value
# 1       5   1    Ozone  41.0
# 2       5   2    Ozone  36.0
# 3       5   3    Ozone  12.0
# 4       5   4    Ozone  18.0
# ...
# 612     9  30     Temp  68.0

第2步:现在,我们希望将‘Value’列替换为‘min’和‘max’列。我们可以使用‘plyr’包中的‘ddply’函数来实现这一点。为此,我们使用‘ddply’函数(数据帧作为输入,数据帧作为输出,因此使用"dd"-ply)。我们首先指定数据。

ddply(aqm,

然后指定要用来对数据进行分组的变量‘Month’和‘Variable’。我们使用.函数直接引用此变量,而不是引用它们包含的值。

ddply(aqm, .(Month, variable),

现在我们需要选择一个聚合函数。我们在这里选择summarize函数,因为我们有不想包含在最终数据中的列(‘Day’和‘Value’)。summarize函数将删除所有原始的非分组列。

ddply(aqm, .(Month, variable), summarize,

最后,我们为每组指定要进行的计算。我们可以引用原始数据框(‘AQM’)的列,即使它们不会包含在我们的最终数据框中。它看起来是这样的:

aqm_ply <- ddply(aqm, .(Month, variable), summarize, min=min(value), max=max(value))

#    Month variable  min   max
# 1      5    Ozone  1.0 115.0
# 2      5  Solar.R  8.0 334.0
# 3      5     Wind  5.7  20.1
# 4      5     Temp 56.0  81.0
# 5      6    Ozone 12.0  71.0
# 6      6  Solar.R 31.0 332.0
# 7      6     Wind  1.7  20.7
# 8      6     Temp 65.0  93.0
# 9      7    Ozone  7.0 135.0
# 10     7  Solar.R  7.0 314.0
# 11     7     Wind  4.1  14.9
# 12     7     Temp 73.0  92.0
# 13     8    Ozone  9.0 168.0
# 14     8  Solar.R 24.0 273.0
# 15     8     Wind  2.3  15.5
# 16     8     Temp 72.0  97.0
# 17     9    Ozone  7.0  96.0
# 18     9  Solar.R 14.0 259.0
# 19     9     Wind  2.8  16.6
# 20     9     Temp 63.0  93.0

第三步:我们可以看到数据大大减少了,因为ddply函数聚合了行。现在我们需要再次融合数据,这样我们就可以获得最终数据框的第二个变量。请注意,我们需要指定一个新的variable.name参数,因此我们没有两个名为"Variable"的列。

aqm_melt <- melt(aqm_ply, id=c("Month", "variable"), variable.name="variable2")

    #    Month variable variable2 value
# 1      5    Ozone       min   1.0
# 2      5  Solar.R       min   8.0
# 3      5     Wind       min   5.7
# 4      5     Temp       min  56.0
# 5      6    Ozone       min  12.0
# ...
# 37     9    Ozone       max  96.0
# 38     9  Solar.R       max 259.0
# 39     9     Wind       max  16.6
# 40     9     Temp       max  93.0

第4步:我们最终可以通过将数据转换为最终表单来完成所有操作。

dcast(aqm_melt, Month ~ variable + variable2)

#   Month Ozone_min Ozone_max Solar.R_min Solar.R_max Wind_min Wind_max Temp_min  Temp_max
# 1     5         1       115           8         334      5.7     20.1       56        81
# 2     6        12        71          31         332      1.7     20.7       65        93
# 3     7         7       135           7         314      4.1     14.9       73        92
# 4     8         9       168          24         273      2.3     15.5       72        97
# 5     9         7        96          14         259      2.8     16.6       63        93

希望这个例子能给您足够的理解,让您开始学习。请注意,正在积极开发名为‘dplyr’的新的、数据帧优化版本的‘plyr’包,因此您可能希望在新包变得更加成熟后准备将代码转换为新包。

这篇关于重塑2:聚合函数的多重结果?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆