aggregate相关内容
在SO用户的多个建议后,我终于试图将我的代码转换为使用 data.table 。 library(data.table) DT id = rep(c(“CTRL”,“CTRL”,“ID1”,“ID2”,“ID3”),2), val = 1:10) > DT 板ID val 1:plate1 CTRL 1 2:plate1 CTRL 2 3:plate1 ID1 3
..
所以我有一个数据框,有一个日期列,一个小时列和一系列其他数字列。 数据框架如下所示: 日期小时墨尔本南部弗拉格斯塔夫 1 2009-05-01 0 0 5 17 2 2009-05-01 2 0 2 1 3 2009-05-01 1 0 11 0 4 2009-05-01 3 0 3 8 5 2009-05-01 4 0 1 0 6 2009-05-01 5 0
..
我在聚合数据框时遇到一些麻烦,同时保持组的原始顺序(基于数据框中的第一次出现的顺序)。 这里是一个示例数据集,可以处理: set.seed(7) sel.1 sel.2
..
我在R中有一个 data.table : library(data.table) set.seed(1) DT = data.table( group = sample(letters [1:2],100,replace = TRUE), year = sample(2010:2012,100,replace = TRUE), v = runif(100)) 按组和
..
我正在寻找一个解决方案来计算组的一些变量的加权和与data.table。我希望例子很清楚。 require(data.table) dt
..
我想计算每个“日”的平均值,但计算一天的一部分(时间= 12-14)。这段代码适用于我,但我必须输入每一天作为一行新的代码,这将达数百行。 这似乎应该很简单。我已经做到这一点很容易当分组变量是相同的,但不知道如何做,当我不想包括一天的所有值。 有更好的方法吗? sapply(sap [sap $ day == 165& sap $ time%in%c(12,12.1,12.2,12
..
我有以下示例 data.table : dtb 我想通过使用 colSums 。什么是正确的方法这样做?以下不工作: dtb [,colSums,by =“id”] 这只是一个示例,我的表有很多列,所以我想避免在函数名中指定所有的列 解决方案 这实际上是我正在寻找,并在常见问题提到: dtb [,lapply(.SD,mean)
..
我有一个大约200列的数据框架,其中我想将表格分成前10个左右,这是因素和总和其余的列。 我有列出了我想要分组的所有列名称以及我想要聚合的所有列的列表。 输出格式 是否有使用软件包的解决方案 data.table , plyr 或任何其他? 解决方案 data.table 方式是: DT [,lapply(.SD,sum),by = list(col1,col2,c
..
我希望(1)通过一个变量( State )分组数据,(2)在每个组内找到另一个变量的最小值行$ c> Employees ),和(3)提取整行。 (1) 这里是一个示例数据集: >数据 州公司雇员 1 AK A 82 2 AK B 104 3 AK C 37 4 AK D 24 5 RI E 19 6 RI F 118 7 RI RI 88 8 RI
..
以下是一些示例数据: days = 365 * 2 date = seq(as.Date(“2000-01-01”),length = days,by = “day”) year = year(date) month = month(date) x1 = cumsum(rnorm(days,0.05)) x2 = cumsum ,0.05)) df1 = data.frame
..
我有一个带有ID列的表格和另一个带有数字的列。一个ID可以有多个数字。例如 ID |数字 1 | 25 1 | 26 1 | 30 1 | 24 2 | 4 2 | 8 2 | 5 现在根据这些数据,在一个新表中,我想有 ID |低|高 1 | 24 | 26 1 | 30 | 30 2 | 4 | 5 2 | 8 | 8
..
我有大约300 csv文件的风速,温度,压力等,列,每一行是不同的时间,从2007年到2012年。每个文件是从不同的位置。我想将所有文件合并成一个是所有300个文件的平均值。因此,新文件将具有每个单独文件的相同数目的行和列,但每个单元格将是所有300个文件的对应平均值。有没有一个简单的方法来做到这一点? 解决方案 正在关注此帖,您可以将所有文件读入列表(这里我假设他们被命名为weather
..
我想在此处调整此信息(解析CSV文件并汇总值)将多个列而不是一个相加。 对于这些数据: CITY,AMOUNT,AMOUNT2, AMOUNTn 伦敦,20,21,22 东京,45,46,47 伦敦,55,56,57 纽约,25,26,27 我如何获得: code> CITY,AMOUNT,AMOUNT2,AMOUNTn 伦敦,75,77,79
..
我有一个csv,如下所示: 日期,气氛 2014-01-03,0.4 2014-01-04,-0.03 2014-01-09,0.0 2014-01-10,0.07 2014-01-12,0.0 2014 -02-24,0.0 2014-02-25,0.0 2014-02-25,0.0 2014-02-26,0.0 2014-02-28,0.0 20
..
我仍然在学习R中的数据管理。我知道我真的很接近,但不能得到精确的语法。我看过 通过使用条件R 和 条件计数并在R 分组,但不能完全翻译成我的工作。我试图得到一个计数的dist.km等于0的ST。最后,我想要添加列的各种距离范围的计数,但应该能够得到它。最终表应该具有所有状态和计数0。这是一个20行的示例。 结构(列表(ST =结构(c(12L,15L,13L,10L,15L ,16L
..
我有一个查询: SELECT availables.bookdate AS Date,DATEDIFF(now(),availables.updated_at) as Age FROM availables INNER JOIN rooms ON availables.room_id = rooms.id WHERE availables.bookdate BETWEEN'
..
我试图在python中重现R aggregate()函数,但没有连接。对于每一行,我只想计算给定列中具有相似值的行的出现次数。 我试图从这里的一段代码中工作: http://timotheepoisot.fr/2011/12/01/the-aggregate-function-in-python/ 我实现的修改由 ### 指示。我现在遇到的问题是,第一列[0]包含字符串,代码似乎只适
..
这里是我的问题: 模型: id4]} {application:”abc“ date:Date.yesterday,status:“1”,user_id:[ id1,id3,id5]} {application:“abc” Time.yesterday-1,status:“1”,user_id:[ id1,id3,id5]} 需要计算一段时间内user_ids的唯
..
有人可以解释为什么我得到不同的答案使用聚合函数来计数组的缺失值?此外,是否有更好的方法来计算组使用原生R函数的缺失值? DF DF aggregate(X〜YEAR,data = DF,function(x){sum(is.na(x))}) with(DF,aggregate X,list(YEAR),function(x){sum(is.na(x))})) aggreg
..
我有一个SQL Server 2008查询 SELECT TOP 10 * FROM T WHERE。 .. ORDER BY ... 我想获得总数的行。有趣的方法是进行第二次查询 SELECT COUNT(*) FROM T WHERE。 .. ORDER BY ... 有没有有效的方法? 感谢 解决方案
..