dataframe相关内容
我有数据框架 test
..
我有两个数据框,如下所示: x = data.frame(Name = c(“200003” ,“200260”,“400826”,“400863”,“500710”),Chr = c(“chr1”,“chr1”,“chr2”,“chr3”,“chr3”),Position = c(11880,14415 ,13000,15000,18000)) y = data.frame(name =
..
我想基于两个条件聚合 data.table ,其中一个附加到另一行。这里是我的问题和一个可重复的例子: 我有一对起点目的地。 对于每个起点,我想对满足 condition1 的目的地的点数求和。 每个起点 - 目的地对中的点只能求和一次 只有在逆向通量中满足IF condition2 也就是说, AB 中的点只能在 condition1 == T 和如果有 BA pair其中 con
..
随着最近推出的包 dataframe ,我认为是时候正确地对各种数据结构进行基准测试,并突出显示每个数据结构是最好的。我不是每个人的不同优势的专家,所以我的问题是,我们应该如何对他们进行基准化。 我试过的一些(相当粗糙的) library(microbenchmark) library(data.table) mat
..
我有一个具有共同结构的列表列表 require(data.table) l a2 = list b = data.table(rnorm(3)),c = data.table(rnorm(3)),d = data.table(rnorm(3)))) pre> 有时, lapply 更容易将结构从2x3列表更改为3x2列表: + a1 --- b + b --- a
..
假设我有一个数字向量,如: x 和data.frame: df value = c(-1.187,0.095,-0.142,-0.818,-0.734 ,0.511)) df 键值 1 0.5 -1.187 2 1.0 0.095 3 1.5 -0.142 4 2.0 -0.818 5 2.5 -0.734 6 3.0 0.511
..
有人可以向我解释 matrix , data.frame 和 data.table ? 取一个10×10的矩阵 p> foo
..
我是新的data.tables如此抱歉,如果这是一个非常基本的问题。 我听说data.tables在处理大量数据时显着提高了计算时间,所以想看看data.table是否能够帮助加快滚动功能。 如果我们有一些单变量数据 xts.obj
..
这是我的数据框看起来像。两个最右边的列是我所需的列。这两列检查条件是否在最近21天有一个“电子邮件”ActivityType,以及在最近21天是否有一个“网络研讨会”ActivityType。 姓名ActivityType ActivityDate电子邮件(last21days)网络研讨会(last21day)** John电子邮件1/1/2014 TRUE NA John Webi
..
假设我在10年内有5个国家的分数,例如: mydata mydata
..
我试图找到一种方法来确定一组列在数据框架中何时更改值。让我直截了当,请考虑以下示例: x x [4, = 6 cnt列是唯一的ID ,或时间列,为了简单起见,这里是一个int) 代码列就像一组行的代码(想象几个这样的组,但是具有不同的代码)。 val0,val1,val2列就像是分数。 上面的data.frame应该被理解为:'ELEM
..
如何在Excel中快速打开小的R表/向量对象? 例如,假设您想在Excel中查看以下三个对象: / p> ##带有逗号和引号的数据框 df = data.frame( area = unname state.x77 [,'Area']), frost = unname(state.x77 [,'Frost']), comments =“确定访问,但不想住在那里“, chal
..
这个问题是关于将非循环同构或异构数据结构的任何集合转换为数据帧的通用机制。这在处理许多JSON文档的获取或者是一个字典数组的大型JSON文档时特别有用。 有几个SO问题处理使用 plyr , lapply 等功能操纵深层嵌套的JSON结构并将其转换为数据框架。所有问题和答案我发现有关具体情况,而不是提供一个通用的方法来处理复杂的JSON数据结构的集合。 在Python和Ruby中,我通
..
我有一个带有标记的行和列的数字矩阵: 1 2 3 4 a 6 7 8 9 b 8 7 5 7 c 8 5 4 1 d 1 6 3 2 我想要一个data.table(或data.frame然后我可以转换)的形式: col行值 1 a 6 1 b 8 1 c 8 1 d 1 2 a 7 2 b 7 2 c 5 2 d 6 ..
..
我想更新数据框架的一列,使用其原始名称来引用它,这是否可能?例如,我有表'data' abc 1 2 2 3 2 3 4 1 2 ,我想将列b的名称更新为'd'。我知道我可以使用 colnames(data)[2]
..
R具有pass-by-value语义,可以最大限度地减少意外的副作用(一件好事)。然而,当代码被组织成用于可重用性/可读性/可维护性的许多函数/方法时,并且当该代码需要通过例如大数据帧来操纵大型数据结构时,通过一系列变换/操作,pass-by-value语义导致到大量的数据复制和堆栈颠簸(一个坏东西)。例如,作为函数参数传递的在堆上占用50Mb的数据帧将以函数调用深度的最小相同次数进行复制,并且调
..
似乎可以在 data.table 中就地添加/删除列,即而不复制将所有其他列转移到新表中。 可以使用一个 data.frame ? PS。我知道如何添加/删除列“功能”,即创建一个新的框架,而不修改原始的。 解决方案 可以通过 data.table :: set 的引用从 data.frame 中删除或修改现有列。我怀疑你可以添加一个列而不复制。可以向 data.table
..
我想创建一个条件虚拟变量。假设我有一个看起来像这样的数据集: 主题年X X1 A 1990 1 0 A 1991 1 0 A 1992 2 0 A 1993 3 0 A 1994 4 0 A 1995 4 1 B 1990 0 0 B 1991 1 0 B 1992 1 0 B 1993 2 0 B 1994 3 0 C 1990 1 0
..
以下是我遇到并困扰的情况的可重现示例(它是一个测试客户端我正在使用它来评估各种方法合并数据集,用于我的论文研究)。 testData tmpFile
..
使用R,我试图修剪包含多个时间序列的数据帧的开始和结束处的NA值。我已经实现了我的目标使用一个for循环和动物园包,但正如预期的,对大型数据框是非常低效的。 我的数据框看起来像这样,包含3列,每个时间序列由其唯一ID标识。在这种情况下为AAA,B和CCC。 id日期值 AAA 2010/01/01 NA AAA 2010/02/01 34 AAA 2010/03/01 35
..