data.table相关内容

在数据表中快速EXISTS

检查data.table中是否存在值的最快方法是什么? 假设 dt是n列的数据表,其中k列是键 键是一个列表,值或数据表,或者可以在 中使用的任何内容 i $ c> [。data.table 我目前正在做 NROW(dt [keys,nomatch = 0])!= 0 $ 示例 $ b code> require(data.table) in ..
发布时间:2017-03-12 11:28:32 其他开发

只有在添加数字时,才将NA视为零

计算两个数据表的总和时, NA + n = NA 。 code>> dt1 & dt1 名称1 2 1:Joe 0 3 2:Ann NA NA > dt2 & dt2 名称1 2 1:Joe 0 2 2:Ann NA 3 > dtsum > dtsum 名称1 2 1:Joe 0 5 2:Ann NA NA 我不想用0代替所有NA。我想要的 ..
发布时间:2017-03-12 11:28:19 其他开发

转换data.table中的一组列

A data.table 新手问题。 我想通过对它们应用数学公式来转换 data.table 中的一组列。 在 data.frame 术语I将执行: data(iris) head(iris) Sepal.Length Sepal.Width Petal长度花瓣宽度种类 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa ..
发布时间:2017-03-12 11:27:56 其他开发

从R中的data.table计算组的平均每月总计

我有一个数据表,在30年期间每天有一行,有多个不同的变量列。使用data.table的原因是,我使用的.csv文件是巨大的(大约120万行),因为有30年的数据由一个名为'key'的列的特征组。 > 示例数据集如下所示: 键日期Runoff A 1980-01-01 2 A 1980-01-02 1 A 1981-01-01 0.1 A 1981-01-02 3 A ..
发布时间:2017-03-12 11:27:44 其他开发

删除data.table中的范围

我试图从基于日期和月份(例如夏季假期除外)的数据表中排除某些行,例如始终从6月15日开始,到下个月15日结束。我可以提取这些天基于日期,但as.Date函数是非常慢的操作,我有单独的整数列的月和日,我想只使用它们。 很容易通过选择给定的条目。 DT [Month == 6] [Day& 15] DT [Month == 7] [Day 任何方式如何使两个 data ..
发布时间:2017-03-12 11:27:32 其他开发

我如何以类似dcast的方式自加入data.table

假设我在“熔解”表单中有一个 data.table ,其中有一个键,以及标识符和值 library(data.table) library(reshape2) DT = data.table(X = c(1:5,1:4) Y = c(rep(“A”,5),rep(“B”,4)),Z = rnorm(9) b $ b 如何在 data.table ? > DT ..
发布时间:2017-03-12 11:27:20 其他开发

如何从R data.table中删除NA块

我有一个大的R data.table 与多列键,其中一些值列包含一些NA。我想删除一个或多个值列中完全为NA的组,但保留整个组。 为了给出一个简化的例子: library(data.table) DT = data.table( Series = rep(letters [1:12],each = 3), Id = Value1 = c(1:3,NA,5:9,rep(NA, ..
发布时间:2017-03-12 11:27:08 其他开发

mutate是否通过引用更改tbl?

我真的很喜欢 data.table 是通过引用更改表的:= 需要昂贵的副本。从我的理解,这是使 data.table 这样超快的方面相比其他方法之一。 现在,我开始使用 dplyr 包,看起来同样表现出色。但是由于结果仍然需要使用 ..
发布时间:2017-03-12 11:26:57 其他开发

向包含许多变量的data.table添加新列

我想根据分组计算同时向 data.table 添加许多新列。我的数据的工作示例如下所示: 时间股票x1 x2 x3 1:2014-08 -22 A 15 27 34 2:2014-08-23 A 39 44 29 3:2014-08-24 A 20 50 5 4:2014-08-22 B 42 22 43 5:2014-08-23 B 44 45 12 6:2014- ..
发布时间:2017-03-12 11:26:45 其他开发

在数据表中重新分类选择列

我想使用向量化操作更改数据表中所选变量的类别。我是新的data.table语法,我试图尽可能多地学习。我现在的问题是基本的,但它会帮助我更好地理解数据表的思维方式! 还有一个类似的问题 ..
发布时间:2017-03-12 11:26:21 其他开发

将不规则时间序列划分为每月平均值 - R

为了建立对能源使用的季节性影响,我需要将来自计费数据库的能源使用信息与每月温度一致。 使用具有不同长度和开始和结束日期的帐单的结算数据集,并且我想获得每个月内每个帐户的月平均值。例如,我有一个具有以下特征的结算数据库: acct amount begin end days 1 2242 11349 2009-10-06 2009-11-04 29 2 2242 12252 2 ..
发布时间:2017-03-12 11:26:04 其他开发

R:将JSON通用扁平化为data.frame

这个问题是关于将非循环同构或异构数据结构的任何集合转换为数据帧的通用机制。这在处理许多JSON文档的获取或者是一个字典数组的大型JSON文档时特别有用。 有几个SO问题处理使用 plyr , lapply 等功能操纵深层嵌套的JSON结构并将其转换为数据框架。所有问题和答案我发现有关具体情况,而不是提供一个通用的方法来处理复杂的JSON数据结构的集合。 在Python和Ruby中,我通 ..
发布时间:2017-03-12 11:25:53 其他开发

Windows 8上的R中的foreach循环的内存问题(64位)(doParallel包)

我试图从串行到并行方法,在一个大的 data.table 上完成一些多变量时间序列分析任务。该表包含许多不同组的数据,我试图从 for 循环移到 foreach 循环 doParallel 包,以利用安装的多核处理器。 我遇到的问题涉及内存和如何新的R进程似乎消耗大量的它。我认为发生的是,包含所有数据的大的 data.table 被复制到每个新进程,因此我用尽了RAM和Windows开始交换 ..
发布时间:2017-03-12 11:25:41 其他开发

新的列和数据表

我需要向现有表中添加许多大表,因此我使用rbind和优秀的数据表data.table。但是一些后面的表具有比原始列更多的列(需要包括)。对于data.table有相当于rbind.fill吗? library(data.table) aa bb cc dt.1 ..
发布时间:2017-03-12 11:25:02 其他开发

组合data.tables的列表

有没有一个特定的方法来组合一个data.tables列表在R? 我有一个〜20 data.tables的列表,每个约100万 我一直在使用 Reduce('rbind',data.table) 但需要一段时间。 Tnx! 解决方案 ?rbindlist 和这些相关问题(当您知道要搜索什么时更容易找到!): 包含 rbindlis ..
发布时间:2017-03-12 11:24:39 其他开发