aggregate相关内容
我想通过平均值聚合每两个单元格值,并在数据框的列下继续使用相同的过程。 要更准确地看到以下数据框提取: XYZ 1 FRI 200101010000 -6.72 2 FRI 200101010030 -6.30 3 FRI 200101010100 -6.26 4 FRI 200101010130 -5.82 5 FRI 200101010200 -5.64 6
..
通过在数据框架上使用聚合来避免使用循环的时间。但是我需要一个列的值进入最终计算。 dat rate = c(0.5,0.4,1,0.6), v1 = c(4,0,3 ,1), v2 = c(2,0,9,4)) > dat 密钥率v1 v2 1 a 0.5 4 2 2 b 0.4 0 0 3 a 1.0 3 9 4 b 0.6 1 4 aggregate(
..
使用数据框和大熊猫,我试图找出每个值是“group by”类别的总计的百分比。 所以使用提示数据库,我想看到,对于每个性别/吸烟者,总帐单的比例是女性吸烟者/所有女性和女性非吸烟者/所有女性(男性同样的) 例如, 如果完整的数据集是: 性别,吸烟者,日间,时间,大小,总帐单 女性,不,太阳,晚餐,2,20 女性,不,星期一,晚餐, 2,40 女,不,周三,晚餐,1,10
..
我是R的新手,我写了一些代码来根据我的需要对.csv文件中的数据进行总结。 这里是代码。 > raw
..
我有一个从这样的文件中读取的数据框: 名称,积分,胜利,损失,margin joe,1,1,0,1 bill,2,3,0,4 joe,5,2,5,-2 cindy, 2,3,-2.5 等。 我想在这个数据的所有行中平均列数值,在R中是否有一个简单的方法? 例如,我想得到所有“Joe”的平均列值出现如下: joe,3,1.5,2.
..
如果我有两个变量X和Y的一系列观察结果,那么如何根据变量X的范围来获取Y的平均值? 所以对于例如,使用一些数据,如: df = data.frame(x = runif(50,1,100),y = runif(50,300,700)) 我如何得到答案:“当X为平均值为X3.34时,当X为11-20平均值时的y为632.3等....“ 解决方案 使用 cut 然后在包 pl
..
我有一个包含id,POSIXct(Date& Time)的数据框 > myData Tpt_ID Tpt_DateTime值 1 1 2013-01-01 15:17:21 CST 10 2 2 2013-01-01 15:18:32 CST 5 3 3 2013-01-01 16:00:02 CST 1 4 1 2013-01-02 15:10:11 CST 15
..
我想在数据框中计算组的方法,并在包含这些组平均值的原始数据框中创建一个新列。 (我正在做一个重复性研究,我想要在一个新的列中插入,单位和渠道中的测量值的平均值,所以我可以减去它并计算残差。) 我的资料: >头(mytestdata,15) 插入测量单位通道值 1 1 1 A5 10 9.41 2 1 1 A5 11 9.51 3 1 1 A5 12 10.59 4 1 1
..
我有一个数据框架,如下所示: Timedate TotalSolar_MW 20 2013-06-01 04 :45:00 13.0 21 2013-06-01 05:00:00 41.7 22 2013-06-01 05:15:00 81.8 23 2013-06-01 05:30 :00 153.0 24 2013-06-01 05:45:00 270.7 25
..
如何在以下数据框架中为每个唯一的 id 选择第一行和最后一行? id d gr mm area 15 1 2 3.40 1 15 1 1 4.90 2 15 1 1 4.40 1 15 1 1 5.50 2 21 1 1 4.00 2 21 1 2 3.80 2 22 1 1 4.00 2 22 1 1 4.90 2 22 1 2 4.60 2 23
..
我有2个表A {int id,int grp},B {int aid,int cat}。 表B包含表的记录A属于,所以B.aid是引用A.id的Foreign Key。 A.id是表A的唯一主键。 B.cat包含从1到5的类别编号,A.grp包含从1到1000的数字。 表A有300万记录,表B - 约5百万。 对于每个组A.grp,我需要计算A中包含B.cat的记录的
..
INFORMIX-SQL 4.10.DC1(SE Engine),在DOS 6.22上,在Microsoft Virtual PC 2007下,在Windows 7中! 编辑:寻找Jonathan Leffler的智慧在这一个! 我有一个名为transaction的子表和一个名为customer的父表。 这些表由customer.pk_id SERIAL = tra
..
我最近开始使用data.table包中的R.我发现它超级方便的转换和聚合数据。我错过的一件事是,你如何变换在多行上定义的数据?我需要首先以大格式重新整形data.frame /表格吗? 假设您有以下数据表: dt = data.table(group = c(“a”,“a”,“a”,“b”,“b”,“b”), subg = c(“f1”,“f2”,“f3”,“f1”,“f2”,“f
..
我想通过数据表中的列列来聚合一些列。但是,我想避免使用引号外的列名称(在 by =。(desiredColumn1,desiredColumn2),即)。我很高兴使用列名或列索引。例如: library(data.table) x = as.data.table(iris) x [,sum(Sepal.Width),by =。(Sepal.Length,Species)]#我想避免这样做
..
我有一个data.table dat 有4列,说( col1 , col2 , col3 , col4 )。 输入数据: 结构5.1,5.1,4.7,4.6,5,5.1,5.1,4.7, 4.6,5),col2 = c(3.5,3.5,3.2,3.1,3.6,3.5,3.5,3.2,3.1, 4),col4 =结构(c(1L,1L,1L,1L,1L,4L)),col3 = c(1.4
..
我有2张书: 时间X1 8/1/2013 56 9/1 / 2013 14 10/1/2013 8 11/1/2013 4 12/1/2013 78 时间X2 8/1 / 2013 42 9/1/2013 44 10/1/2013 2 11/1/2013 75 12/1/2013 36 如何通过“时间”合并这两个表在一个表分组中
..
我有一个2列x和y坐标点的数据框。我想生成一个表的每个点的出现次数。使用 table()命令为所有可能的x-y对生成一个表。我可以用 消除额外的费用 fullTable 0) 然后我相信我可以用 dimnames(fullTable)来获得合适的坐标,但是有更好的方法吗?内置的东西?
..
我有一个数据数组,包含一些关于人和项目的信息: person_id | project_id |动作|时间 -------------------------------------- 1 | 1 | w | 1 1 | 2 | w | 2 1 | 3 | w | 2 1 | 3 | r | 3 1 | 3 | w | 4 1 | 4 | w | 4 2 |
..
我使用一些大时间序列数据集,每个文件约有200万行。到目前为止,我一直使用ddply来聚合数据,像我想要的,但不幸的是,它已经变得太慢,我真的需要一个更快的方式。这是我的代码: DF DF options(digits.secs = 3) DF $ DateTime = as .POSIXct(DF $ DateTime /(10 ^ 9),origin =“1970-01-01”)
..
我想基于两个条件聚合 data.table ,其中一个附加到另一行。这里是我的问题和一个可重复的例子: 我有一对起点目的地。 对于每个起点,我想对满足 condition1 的目的地的点数求和。 每个起点 - 目的地对中的点只能求和一次 只有在逆向通量中满足IF condition2 也就是说, AB 中的点只能在 condition1 == T 和如果有 BA pair其中 con
..