data.table相关内容
我有一个大型 data.table ,其中许多缺失值散布在其〜200k行和200列中。我想尽可能有效地将这些NA值重新编码为零。 我看到两个选项: 1:转换为数据。框架,并使用某些 like this 2:某种酷data.table子设置命令 我会对类型1的一个相当高效的解决方案感到高兴。转换为data.frame然后回到data.table不会花太长时间。 解决方案
..
data.table 提供了一个非常方便的函数, rleid : library(data.table) DT = data.table(grp = rep(c(“A”,“B”,“C”,“A “,”B“),c(2,2,3,1,2)),值= 1:10) rleid(DT $ grp) #[1] 1 1 2 2 3 3 3 4 5 5 我可以在 R 与: df
..
我认为元编程是正确的术语。 我想要能够使用data.table,就像在webapp中使用MySQL一样。也就是说,Web用户使用一些Web前端(例如,像Shiny服务器)来选择数据库,选择要过滤的列,选择要分组的列,选择要聚合的列和聚合函数。我想使用R和data.table作为后端进行查询,聚合等。假设前端存在,R有这些变量作为字符串,并且它们被验证等。 我写了以下函数来构建data.
..
我想在函数中修改 data.table 。如果我在函数中使用:= 功能,结果只会打印第二次调用。 在下面的例子中: library(data.table) mydt
..
我想在我自己的包中使用data.table包。 MWE如下: 我创建一个函数test.fun,它只是创建一个小的data.table对象,然后将“Val” “A”列。代码 test.fun { library(data.table) testdata
..
我的问题与通过引用赋值和在 data.table 中复制有关。我想知道是否可以通过引用删除行,类似于 DT [,someCol:= NULL] 我想了解 DT [someRow:= NULL,] 我想有一个很好的理由为什么函数不存在,所以也许你可以指出一个很好的替代方法,通常的复制方法,如下所示。特别是,从我的最喜欢的例子(data.table),
..
概述 我对 data.table 比较熟悉, c> dplyr 。我阅读了一些 dplyr 小插曲和到目前为止我的结论是: data.table code>和 dplyr 在速度上是可比的,除非有很多(即> 10-100K)组,在其他一些情况下(见下面的基准) / li> dplyr 有更容易使用的语法 dplyr 抽象(或将)潜在的数据库交互 有一些小的功能差异(见下面的“示例
..
如果变量名存储在字符向量中,那么如何引用 data.table 中的变量?例如,这适用于 data.frame : df
..
我有一个data.table: set.seed(1) data
..
我已将 data.table 的名称存储为向量: library(data.table) set.seed(42) DT
..
如何在数据框架的每个组中生成唯一的ID号?以下是按“personid”分组的一些数据: 个人日期测量 1 x 23 1 x 32 2 y 21 3 x 23 3 z 23 3 y 23 我希望为“personid”定义的每个子集中的每一行添加一个具有唯一值的id列,始终以 1 开头。这是我的预期输出: 人物日期测量ID 1 x 23 1
..
在data.frame(或data.table)中,我想“填充”具有最接近的非NA值的NA。使用向量(而不是 data.frame )的一个简单示例如下: > y 我想要一个函数 fill.NAs(),它允许我构造 yy > yy [1] NA NA NA 2 2 2 2 3 3 3 4 4 需要对许多(总〜1Tb)小型 data.frame
..
请考虑以下 data.table s。第一个定义了每个组的开始和结束位置的一组区域 library(data.table) d1 setkey(d1,x,start) #x start end #1:a 1 3 #2:b 5 11 #3 :c 19 22 #4:d 30 39 #5:e 7 25 第二个表示每个组的观察 d2 setkey
..
我对理解 data.table 的传递引用属性有点麻烦。 在创建 data.table 时, code>从 data.table (通过
..
假设我有一个包含一些棒球运动员的数据表: library(plyr) library table) bdt
..
以下是一些示例数据: days = 365 * 2 date = seq(as.Date(“2000-01-01”),length = days,by = “day”) year = year(date) month = month(date) x1 = cumsum(rnorm(days,0.05)) x2 = cumsum ,0.05)) df1 = data.frame
..
使用此脚本我创建了一个特定的文件夹为每个csv文件,然后保存所有我进一步的分析结果在此文件夹。文件夹的名称和csv文件是相同的。 csv文件存储在main / master目录中。 现在,我在每个文件夹中创建了一个csv文件,其中包含所有拟合值的列表。 现在我想执行以下操作: 设置工作目录到特定文件名 读取拟合值文件 添加一行/列,说明网站/唯一ID的名称 将它添加到存储在主目
..
这可能是一个初学者的问题,并有一个相当简单的修复,但我一直在它一段时间,似乎无法确定。我有高频数据,有大约500,000行和62列。我想使用fread()使阅读更有效率,但问题是不是所有的行都是相同的长度。 这是我使用read.csv读取时的输出: > df >日期时间Seq BP1 BQ1 BO1 AP1 AQ1 AO1 BP2 BQ2 BO2 AP2 AQ2 AO2 BP3 BQ3
..
我使用 fread 从 data.table 加载csv文件。但是我的csv文件使用 dec =“,”作为小数分隔符( 1.23 将 1,23 )。与 read.csv 不同, dec 不是允许的参数。 R)args(fread) function(input =“test.csv”,sep =“auto”,sep2 =“auto”,nrows = 1, header =“auto”,
..
我使用新的 data.table ::: fread 函数(最快的读取函数我在R中使用到目前为止),我得到以下(自我解释)exception: R)fread(path) Erreur dans fread(path):强制整数64到真正需要 我的文件(由制表符分隔的csv)确实包含大整数,例如 902160000671352000 。我的问题是,我可以告诉 fread
..