tapply相关内容

分组函数(tapply、by、aggregate)和 *apply 系列

每当我想在 R 中做一些“映射"py 时,我通常会尝试使用 apply 家族中的函数. 然而,我从来没有完全理解它们之间的区别——如何{sapply、lapply等}将函数应用于输入/分组输入,输出会是什么样子,甚至输入会是什么样子——所以我经常把它们全部看完,直到得到我想要的东西. 谁能解释一下什么时候用哪一个? 我目前(可能不正确/不完整)的理解是...... sapp ..
发布时间:2021-12-01 20:16:21 其他开发

使用应用族对不同因子水平进行汇总统计

我试图找到不同因子水平的汇总统计数据. data.frame(apply(final_data[Company=="BPO",c(66:84)],2,summary)) 现在我为 company 设置了不同的值 - 我可以为不同的值重复该语句.我知道它可以自动化 - 使用应用系列(ddply,tapply,sapply),但我没有做对. 解决方案 您可以拆分公司,然后使用您的功能: ..
发布时间:2021-11-16 23:19:16 其他开发

乘以多列并为多个值找到每列的总和

我正在尝试乘以列并获取其名称.我有一个数据框: v1 v2 v3 v4 v50 1 1 1 10 1 1 0 11 0 1 1 0 我正在尝试将每一列与其他列相乘,例如: v1v2v1v3v1v4v1v5 和v2v3v2v4v2v5 等等,和 v1v2v3v1v2v4v1v2v5v2v3v4v2v3v5 4 组合和 5 组合...如果有 n 列则 n 组合. 我尝试在 wh ..
发布时间:2021-11-16 23:08:23 其他开发

计算两个整数矩阵/数据帧的所有行之间的成对汉明距离

我有两个数据框,带有参考数据的 df1 和带有新数据的 df2.对于 df2 中的每一行,我需要根据汉明距离找到与 df1 匹配的最佳(和次佳)行. 我使用 e1071 包来计算汉明距离.两个向量 x 和 y 之间的汉明距离可以计算为例如: x 结果距离为 25.但我需要对 df1 和 df2 的所有行执行此操作.一个简单的方法需要一个双循环嵌套,看起来非常慢. 任何想法如何更有 ..
发布时间:2021-11-16 23:04:43 其他开发

按组用中位数替换 NA 值

我使用了下面的 tapply 函数来获得基于 Pclass 的 Age 中位数. 现在如何根据 Pclass 将这些中值归入 NA 值? tapply(titan_train$Age,titan_train$Pclass,中位数,na.rm=T) 解决方案 这是另一种使用 replace 和 ave 的 base R 方法. df1 同样的想法,但使用 data.table l ..
发布时间:2021-06-07 18:32:07 其他开发

具有多个因素分组的Barplots,以及这些因素之间的变量均值

我正在尝试创建一个条形图,以显示按单身或按大学毕业生或非大学毕业生分组的工会和非工会工人的平均小时工资.虽然我设法用两个因素分组构造了一个可通过的条形图,但我不知道如何使用三个因素分组来构造.我看到的具有三个因素的示例仅着眼于频率计数,因此我不确定如何将所有因素中另一个变量的均值合并到图中.我要创建的东西看起来像这样(在Stata中创建):按工会状况,婚姻状况和大学毕业的平均小时工资我的代码如下: ..
发布时间:2021-04-14 19:16:18 其他开发

使用不同因素水平的应用族的汇总统计数据

我正在尝试查找不同因素水平的摘要统计信息. data.frame(应用(final_data [Company =="BPO",c(66:84)],2,摘要)) 现在我为 company 提供了不同的值-我可以为不同的值重复该语句.我知道它可以自动化-使用Apply系列( ddply , tapply , sapply ),但我做得不好. 解决方案 您可以拆分公司,然后使用您的函数 ..
发布时间:2021-04-09 18:57:31 其他开发

r中的相对频率乘以系数

我想得到一个跨其他因子变量的前10个绝对频率和相对频率的表格. 我有一个包含3列的数据框:1列是因子变量,第二列是我需要计数的其他变量,3列是约束的逻辑变量. (实际数据库中有超过4百万个观测值) dtf ..
发布时间:2020-07-10 20:33:17 其他开发

R按组进行分位数分配

我有以下df: group = rep(seq(1,3),30) variable = runif(90, 5.0, 7.5) df = data.frame(group,variable) 我需要i)按组定义分位数,ii)根据每个人的组将每个人分配给她的分位数. 因此,输出将如下所示: id group variable quantile_with_respect ..
发布时间:2020-07-10 20:33:14 其他开发

Taptly中的t代表什么?

似乎已经普遍同意,"lapply"中的l代表list,"sapply"中的s代表simple,而"rapply"中的r代表递归.但是我在"tapply"中找不到任何内容.我现在很好奇. 解决方案 table的立场,因为tapply是table函数的通用形式.您可以通过比较以下调用来查看: x ..
发布时间:2020-07-10 20:32:09 其他开发

在R中使用`apply`的变体

通常在研究中,我们必须做一个汇总表.我想在R中使用tapply创建一个表.唯一的问题是我有40个变量,并且我希望基本上对所有40个变量执行相同的操作.这是数据示例 Age Wt Ht Type 79 134 66 C 67 199 64 C 39 135 78 T 92 149 61 C 33 138 75 T 68 139 71 C 95 198 62 T ..
发布时间:2020-07-10 20:32:06 其他开发

by()函数是否使列表不断增加

by函数是否使列表一次增加一个元素? 我需要处理一个数据帧,其中约有4M观察值按因子列分组.情况类似于以下示例: > # Make 4M rows of data > x = data.frame(col1=1:4000000, col2=10000001:14000000) > # Make a factor > x[,"f"] = x[,"col1"] - x[,"col1"] % ..
发布时间:2020-07-10 20:31:00 其他开发

R函数which.max with tapply

我正在尝试使超出记录的最大值最大化一个数据帧.我想要一个具有4行(每个G对应一个)的数据帧,其中该组中X的最大值和相应的Y值.我知道我可以编写一个循环,但不愿意. Data ..
发布时间:2020-07-10 20:30:54 其他开发

如何将na.rm作为参数传递给tapply?

我想从一个数据帧计算平均值和sd,其中一列作为参数,一列作为组标识符.使用tapply时如何计算它们?我可以使用sd(v1, group, na.rm=TRUE),但是在使用tapply时无法将na.rm=TRUE放入语句中. omit.na是不可选项.我有一堆参数,当排除所有缺少一个缺失值的行时,必须一步一步地遍历它们,而不会丢失数据框的一半. data("weightgain", pac ..
发布时间:2020-07-10 20:29:50 其他开发

从列表列表中删除NA

我有一个矩阵data.mat,它看起来像: A B C D E 45 43 45 65 23 12 45 56 NA NA 13 4 34 12 NA 我正在尝试将其变成一个列表列表,其中每一行都是一个更大列表中的一个列表.我执行以下操作: list ..
发布时间:2020-07-10 20:28:47 其他开发