重塑2:聚合函数的多重结果? [英] reshape2: multiple results of aggregation function?
问题描述
据我所知,reshape2中的*CAST操作失去了result_variable
功能。Hadley暗示使用plyr来实现此目的(将多个结果列追加到输入数据框中)。如何实现文档示例...
aqm <- melt(airquality, id=c("month", "day"), na.rm=TRUE)
cast(aqm, month ~ variable + result_variable, range)
使用reshape2
(dcast
)和plyr
(ddply
)?
推荐答案
由于‘reshape2’和‘plyr’程序包的灵活性,此问题有多个答案。我将在这里展示一个最容易理解的例子:
library(reshape2)
library(plyr)
aqm <- melt(airquality, id=c("Month", "Day"), na.rm=TRUE)
aqm_ply <- ddply(aqm, .(Month, variable), summarize, min=min(value), max=max(value))
aqm_melt <- melt(aqm_ply, id=c("Month", "variable"), variable.name="variable2")
dcast(aqm_melt, Month ~ variable + variable2)
# Month Ozone_min Ozone_max Solar.R_min Solar.R_max Wind_min Wind_max Temp_min Temp_max
# 1 5 1 115 8 334 5.7 20.1 56 81
# 2 6 12 71 31 332 1.7 20.7 65 93
# 3 7 7 135 7 314 4.1 14.9 73 92
# 4 8 9 168 24 273 2.3 15.5 72 97
# 5 9 7 96 14 259 2.8 16.6 63 93
第一步:让我们将其分解为几个步骤。首先,让我们撇开‘AQM’的定义,从融化的数据开始工作。这将使该示例更易于理解。
aqm <- melt(airquality, id=c("Month", "Day"), na.rm=TRUE)
# Month Day variable value
# 1 5 1 Ozone 41.0
# 2 5 2 Ozone 36.0
# 3 5 3 Ozone 12.0
# 4 5 4 Ozone 18.0
# ...
# 612 9 30 Temp 68.0
第2步:现在,我们希望将‘Value’列替换为‘min’和‘max’列。我们可以使用‘plyr’包中的‘ddply’函数来实现这一点。为此,我们使用‘ddply’函数(数据帧作为输入,数据帧作为输出,因此使用"dd"-ply)。我们首先指定数据。
ddply(aqm,
然后指定要用来对数据进行分组的变量‘Month’和‘Variable’。我们使用.
函数直接引用此变量,而不是引用它们包含的值。
ddply(aqm, .(Month, variable),
现在我们需要选择一个聚合函数。我们在这里选择summarize
函数,因为我们有不想包含在最终数据中的列(‘Day’和‘Value’)。summarize
函数将删除所有原始的非分组列。
ddply(aqm, .(Month, variable), summarize,
最后,我们为每组指定要进行的计算。我们可以引用原始数据框(‘AQM’)的列,即使它们不会包含在我们的最终数据框中。它看起来是这样的:
aqm_ply <- ddply(aqm, .(Month, variable), summarize, min=min(value), max=max(value))
# Month variable min max
# 1 5 Ozone 1.0 115.0
# 2 5 Solar.R 8.0 334.0
# 3 5 Wind 5.7 20.1
# 4 5 Temp 56.0 81.0
# 5 6 Ozone 12.0 71.0
# 6 6 Solar.R 31.0 332.0
# 7 6 Wind 1.7 20.7
# 8 6 Temp 65.0 93.0
# 9 7 Ozone 7.0 135.0
# 10 7 Solar.R 7.0 314.0
# 11 7 Wind 4.1 14.9
# 12 7 Temp 73.0 92.0
# 13 8 Ozone 9.0 168.0
# 14 8 Solar.R 24.0 273.0
# 15 8 Wind 2.3 15.5
# 16 8 Temp 72.0 97.0
# 17 9 Ozone 7.0 96.0
# 18 9 Solar.R 14.0 259.0
# 19 9 Wind 2.8 16.6
# 20 9 Temp 63.0 93.0
第三步:我们可以看到数据大大减少了,因为ddply
函数聚合了行。现在我们需要再次融合数据,这样我们就可以获得最终数据框的第二个变量。请注意,我们需要指定一个新的variable.name
参数,因此我们没有两个名为"Variable"的列。
aqm_melt <- melt(aqm_ply, id=c("Month", "variable"), variable.name="variable2")
# Month variable variable2 value
# 1 5 Ozone min 1.0
# 2 5 Solar.R min 8.0
# 3 5 Wind min 5.7
# 4 5 Temp min 56.0
# 5 6 Ozone min 12.0
# ...
# 37 9 Ozone max 96.0
# 38 9 Solar.R max 259.0
# 39 9 Wind max 16.6
# 40 9 Temp max 93.0
第4步:我们最终可以通过将数据转换为最终表单来完成所有操作。
dcast(aqm_melt, Month ~ variable + variable2)
# Month Ozone_min Ozone_max Solar.R_min Solar.R_max Wind_min Wind_max Temp_min Temp_max
# 1 5 1 115 8 334 5.7 20.1 56 81
# 2 6 12 71 31 332 1.7 20.7 65 93
# 3 7 7 135 7 314 4.1 14.9 73 92
# 4 8 9 168 24 273 2.3 15.5 72 97
# 5 9 7 96 14 259 2.8 16.6 63 93
希望这个例子能给您足够的理解,让您开始学习。请注意,正在积极开发名为‘dplyr’的新的、数据帧优化版本的‘plyr’包,因此您可能希望在新包变得更加成熟后准备将代码转换为新包。
这篇关于重塑2:聚合函数的多重结果?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!