data.table相关内容
可重现的示例 #使用Iris数据集 库table) iris colnames(iris)[3]
..
有没有办法利用多线程的计算使用 data.table 在R?例如,假设我有以下 data.table : dtb
..
在R中寻找一个函数将日期转换为周数(一年)我从包中周 data.table 。 然而,我观察到一些奇怪的行为: >周(“2014-03-16”)#Sun,expecting 11 [1] 11 > week(“2014-03-17”)#Mon,expecting 12 [1] 11 > week(“2014-03-18”)#Tue,expecting 12 [1] 12
..
关于大数据的另一个新手问题。我使用一个大数据集(3.5m行)与时间序列数据。我想用一个列创建一个 data.table ,该列首次找到唯一标识符。 df是一个 data.table , df $ timestamp 是 POSIXct 类中的日期, df $ id 是唯一的数字标识符。我使用以下代码: #UPDATED - 数据键 setkey(df,id) sub_df
..
在这些会话后:
..
是否有办法使用 Rcpp 和/或将 data.table 对象传递给c ++函数无需将 data.table 手动转换为 data.frame ,即可使用 RcppArmadillo ?在下面的示例中, test_rcpp(X2)和 test_arma(X2) (未知原因)。 R代码 X = data.frame(c(1:100),c(1:100)) X2 = data.table
..
有一种方法可以优雅地计算值之间的相关性,如果这些值存储在一个数据表(而不是将data.table转换为一个矩阵)的单一列中的组? library(data.table) set.seed(1)#reproducibility dt
..
在我的研究中我遇到的重复分析范例是需要基于所有不同的组id值进行子集,依次对每个组执行统计分析,并将结果放在输出矩阵中用于进一步处理/汇总。 p> 我通常在R中这样做是类似如下: mat
..
目前我有一个效用函数 lags 在 data.table 中按组。函数很简单: panel_lag 0 ){ #使过去的值向前k倍 return(c(rep(NA,k),head(var,-k))) } else { #未来值向后 return(c(tail(var,k),rep(NA,-k))) } } pre>
..
我经常面临的一个问题是需要从data.table中查找任意行。我昨天遇到了一个问题,我试图加快一个循环,并使用 profvis 我发现从 data.table 是循环中最昂贵的部分。然后我决定尝试找到在R中执行单个项目查找的最快方法。 数据通常采用数据的形式。表,其中包含字符类型的键列。其余列通常是数值。我试图创建一个随机表,具有类似的特性,我经常处理,意味着> 100K行。我比较了原生列表
..
背景 我尝试以替换一些 CSV c $ c> rds 文件以提高效率。这些是中间文件,将作为其他R脚本的输入。 问题 我开始调查当我的脚本失败,发现 readRDS()和 load() code>数据表作为原始。这是应该发生吗? c $ c> library(data.table) aDT saveRDS =“aDT.rds”) bDT identical(aDT,
..
我试图找到一种方法来确定一组列在数据框架中何时更改值。让我直截了当,请考虑以下示例: x x [4, = 6 cnt列是唯一的ID ,或时间列,为了简单起见,这里是一个int) 代码列就像一组行的代码(想象几个这样的组,但是具有不同的代码)。 val0,val1,val2列就像是分数。 上面的data.frame应该被理解为:'ELEM
..
在data.table中取消列出嵌套列表列。假设所有列表元素都是相同类型。列表元素被命名,名称也必须被处理。 它与 data.table聚合到列列。 我认为值得在SO data.table 知识库。 我目前的解决方法如下, m寻找一些更正规的答案。 (data.table) dt
..
我有一大堆data.tables在列表中。我想对列表中的每个data.table应用 unique(),但这样做会破坏我所有的data.table键。 这里有一个例子: A
..
我最近发现了data.table包,现在想知道是否应该替换我的一些plyr代码。总之,我真的很喜欢plyr,我基本上实现了我想要的一切。但是,我的代码运行一段时间,加速的事情的前景足以让我运行一些测试。这些测试很快就结束了,这就是原因。 我经常使用plyr做的是用包含日期的列分割我的数据,并做一些计算: p> library(plyr) DF #分割数据并应用任意函数 ddply
..
我有一个工作的解决方案: col1 col2 col4 data
..
如何在Excel中快速打开小的R表/向量对象? 例如,假设您想在Excel中查看以下三个对象: / p> ##带有逗号和引号的数据框 df = data.frame( area = unname state.x77 [,'Area']), frost = unname(state.x77 [,'Frost']), comments =“确定访问,但不想住在那里“, chal
..
我是R的 data.table 包的新用户。 我试图给一个由“group by”命令创建的新列命名。 DT = data.table(x = rep(c(“a”,“b”),c(2,3)),y = 1:5) & DT xy 1:a 1 2:a 2 3:b 3 4:b 4 5:b 5 ; DT [,{z = sum(y); z + 3},by = x] x V1
..
我想用同一列的平均值替换DATA TABLE列中的NA。我做了以下。但它不工作。 ww
..
目标 我想计算文档中出现“love”一词的次数, t前面加上“不”字“我爱电影”将被视为一个外观,而“我不爱电影”不会被视为外观。 问题 如何继续使用tm软件包? R代码 下面是一些自我包含的代码,我想修改做以上。 require(tm) #文本向量 my.docs< ; - c(“我爱红辣椒,他们是世界上最可爱的人”, “我不喜欢红辣椒,但我也
..