data.table相关内容

最快的方式来替换大数据表中的NA

我有一个大型 data.table ,其中许多缺失值散布在其〜200k行和200列中。我想尽可能有效地将这些NA值重新编码为零。 我看到两个选项: 1:转换为数据。框架,并使用某些 like this 2:某种酷data.table子设置命令 我会对类型1的一个相当高效的解决方案感到高兴。转换为data.frame然后回到data.table不会花太长时间。 解决方案 ..
发布时间:2017-03-12 09:50:58 其他开发

有一个dplyr等价于data.table :: rleid?

data.table 提供了一个非常方便的函数, rleid : library(data.table) DT = data.table(grp = rep(c(“A”,“B”,“C”,“A “,”B“),c(2,2,3,1,2)),值= 1:10) rleid(DT $ grp) #[1] 1 1 2 2 3 3 3 4 5 5 我可以在 R 与: df ..
发布时间:2017-03-12 09:50:44 其他开发

数据表元程序设计

我认为元编程是正确的术语。 我想要能够使用data.table,就像在webapp中使用MySQL一样。也就是说,Web用户使用一些Web前端(例如,像Shiny服务器)来选择数据库,选择要过滤的列,选择要分组的列,选择要聚合的列和聚合函数。我想使用R和data.table作为后端进行查询,聚合等。假设前端存在,R有这些变量作为字符串,并且它们被验证等。 我写了以下函数来构建data. ..
发布时间:2017-03-12 09:50:28 其他开发

在我自己的包中使用data.table包

我想在我自己的包中使用data.table包。 MWE如下: 我创建一个函数test.fun,它只是创建一个小的data.table对象,然后将“Val” “A”列。代码 test.fun { library(data.table) testdata ..
发布时间:2017-03-12 09:49:56 其他开发

如何在data.table中通过引用删除一行?

我的问题与通过引用赋值和在 data.table 中复制有关。我想知道是否可以通过引用删除行,类似于 DT [,someCol:= NULL] 我想了解 DT [someRow:= NULL,] 我想有一个很好的理由为什么函数不存在,所以也许你可以指出一个很好的替代方法,通常的复制方法,如下所示。特别是,从我的最喜欢的例子(data.table), ..
发布时间:2017-03-12 09:49:21 其他开发

data.table vs dplyr:可以做一些好的,其他不能或不好?

概述 我对 data.table 比较熟悉, c> dplyr 。我阅读了一些 dplyr 小插曲和到目前为止我的结论是: data.table code>和 dplyr 在速度上是可比的,除非有很多(即> 10-100K)组,在其他一些情况下(见下面的基准) / li> dplyr 有更容易使用的语法 dplyr 抽象(或将)潜在的数据库交互 有一些小的功能差异(见下面的“示例 ..
发布时间:2017-03-12 09:49:07 其他开发

我已将 data.table 的名称存储为向量: library(data.table) set.seed(42) DT ..
发布时间:2017-03-12 09:48:21 其他开发

用最新的非NA值替换NA

在data.frame(或data.table)中,我想“填充”具有最接近的非NA值的NA。使用向量(而不是 data.frame )的一个简单示例如下: > y 我想要一个函数 fill.NAs(),它允许我构造 yy > yy [1] NA NA NA 2 2 2 2 3 3 3 4 4 需要对许多(总〜1Tb)小型 data.frame ..
发布时间:2017-03-12 09:47:55 其他开发

滚动连接与开始/结束窗口

请考虑以下 data.table s。第一个定义了每个组的开始和结束位置的一组区域 library(data.table) d1 setkey(d1,x,start) #x start end #1:a 1 3 #2:b 5 11 #3 :c 19 22 #4:d 30 39 #5:e 7 25 第二个表示每个组的观察 d2 setkey ..
发布时间:2017-03-12 09:47:39 其他开发

将结果叠加到R中的一个主文件中

使用此脚本我创建了一个特定的文件夹为每个csv文件,然后保存所有我进一步的分析结果在此文件夹。文件夹的名称和csv文件是相同的。 csv文件存储在main / master目录中。 现在,我在每个文件夹中创建了一个csv文件,其中包含所有拟合值的列表。 现在我想执行以下操作: 设置工作目录到特定文件名 读取拟合值文件 添加一行/列,说明网站/唯一ID的名称 将它添加到存储在主目 ..
发布时间:2017-02-26 15:32:06 Office

错误fread {data.table}因为它没有正确读取NAs /我想要它

这可能是一个初学者的问题,并有一个相当简单的修复,但我一直在它一段时间,似乎无法确定。我有高频数据,有大约500,000行和62列。我想使用fread()使阅读更有效率,但问题是不是所有的行都是相同的长度。 这是我使用read.csv读取时的输出: > df >日期时间Seq BP1 BQ1 BO1 AP1 AQ1 AO1 BP2 BQ2 BO2 AP2 AQ2 AO2 BP3 BQ3 ..
发布时间:2017-02-25 00:03:42 Office

data.table :: fread中的dec参数

我使用 fread 从 data.table 加载csv文件。但是我的csv文件使用 dec =“,”作为小数分隔符( 1.23 将 1,23 )。与 read.csv 不同, dec 不是允许的参数。 R)args(fread) function(input =“test.csv”,sep =“auto”,sep2 =“auto”,nrows = 1, header =“auto”, ..
发布时间:2017-02-24 22:28:05 Office

data.table fread函数

我使用新的 data.table ::: fread 函数(最快的读取函数我在R中使用到目前为止),我得到以下(自我解释)exception: R)fread(path) Erreur dans fread(path):强制整数64到真正需要 我的文件(由制表符分隔的csv)确实包含大整数,例如 902160000671352000 。我的问题是,我可以告诉 fread ..
发布时间:2017-02-24 20:07:30 Office