data.table相关内容

在R中使用data.tables的凸包ggplot

我发现了一个很好的例子,使用ggplot和ddply在这里绘制凸包形状: 使用ggplot绘制多个geom_point组周围的轮廓 我想我会尝试类似的东西 - Ashby Diagram - 使用data.table包进行练习: test { library(data.table) library(ggplot2) set.seed(1) 这里我定义一个 ..
发布时间:2017-03-12 11:37:40 其他开发

fread保护堆栈溢出错误

我在data.table(1.8.8,R 3.0.1)中使用fread尝试读取非常大的文件。 问题文件有313行和约6.6百万列数字数据行,文件大约12GB。这是一个Centos 6.4与512GB的内存。 当我尝试读入文件时: g =用户从'auto'更改为TRUE 错误:protect():保护堆栈溢出 ('final.results',header = T, ..
发布时间:2017-03-12 11:37:25 其他开发

R - 为什么要向数据表添加1列,使用的峰值内存几乎翻倍?

获得 情境和我的问题,我想从数据框+ plyr切换到数据表。 在我处理时,我注意到峰值内存使用率从3.5GB增加到6.8GB(根据Windows任务当我使用:= 为我的数据集添加了一个新列,其中包含约200K行到2.5K列。 然后我尝试200M行25码,增加从6GB到7.6GB,之后,在 gc()。 有关添加新列的详细信息,Matt Dowle自己提到了这里: 它的: ..
发布时间:2017-03-12 11:37:09 其他开发

data.table错误,导致R中的segfault

以下代码将我的 R 2.15.0 隔离,运行 data.table 1.8.9 。 library(data.table) d = data.table(date = c(1,2,3,4,5) ,value = c(1,2,3,4,5)) #按预期工作 d [-5] [,mean(value),by = list .integer((date + 1)/ 2))]] #crash ..
发布时间:2017-03-12 11:36:22 其他开发

当键列数不同时合并data.table

我试图从文档中了解 data.table 中的逻辑,有点不清楚。我知道我可以试试这个,看看会发生什么,但我想确保没有病理情况,因此想知道逻辑如何实际编码。当两个 data.table 对象具有不同数量的键列时,例如 a 有2和 b 有3,并且您运行 c ,将 a 和 b 简单地合并到前两个键列,或者a中的第三列自动合并到 b中的第三个键列?示例: require(data.table) a ..
发布时间:2017-03-12 11:36:06 其他开发

r - 对数据表的每一行应用函数

我想使用 data.table 来提高给定函数的速度,但我不确定我是否以正确的方式实现它: 数据 给定两个 data.table s( dt 和 dt_lookup ) library(data.table) set.seed(1234) t ..
发布时间:2017-03-12 11:35:51 其他开发

如何最好地连接data.table的一列与同一data.table的另一列?

我的数据 我有一个data.table DT 与当前( F0YR )和下一个( F1YR )会计年度末(FYE)编码为整数。由于下一个FYE将最终变为 a当前FYE,整数将在 F1YR 和 F0YR 。此外,我的数据包含每月观察,因此相同的FYE将在数据集 多次: data_table) DT MONTH = rep(100L:108L,times = 2), F0YR = ..
发布时间:2017-03-12 11:35:36 其他开发

NA在data.table中

我有一个包含一些组的 data.table 。我操作每个组,一些组返回数字,其他返回 NA 。由于某些原因 data.table 无法将所有内容放回一起。这是一个错误还是我误会?这是一个例子: dtb f dtb [,f(a),by = a] 错误在`[.data.table`(dtb,,f(a),by = a)中: j的列不会对每个组求值为一致类型:组9的结果具有列1类型'逻辑 ..
发布时间:2017-03-12 11:35:21 其他开发

做什么 。 (点)和%(百分比)

我的问题可能听起来很蠢,但我注意到。和% 我已经在 dplyr (go 这里为例)和 data.table (即 .SD ) 因此,我的问题是: 。是什么意思?是否是某种 R 编码最佳实践命名法? ( _functionName 通常用在 javascript 中,表示它是一个私有函数)。 %的相同问题,也经常在R中使用(即 $ b $> b 我的猜测总是一直是。和%函 ..
发布时间:2017-03-12 11:34:35 其他开发

r数据表功能编程/元编程/计算语言

我使用data.table(还提供了一个dplyr示例)来探索不同的方法来封装聚合函数(但真正可以是任何类型的函数),并且想知道关于函数式编程/元编程的最佳实践 性能(实施与数据表可能应用的潜在优化相关) 可读性(是否有一个通用的协议标准,例如在使用data.table的大多数包中) 易于泛化(元程序设计方式是“可泛化的” b $ b 基本应用程序是灵活地聚合表,即参数化要聚合的变 ..

过去21天中的每个行的事件按名称

这是我的数据框看起来像。两个最右边的列是我所需的列。这两列检查条件是否在最近21天有一个“电子邮件”ActivityType,以及在最近21天是否有一个“网络研讨会”ActivityType。 姓名ActivityType ActivityDate电子邮件(last21days)网络研讨会(last21day)** John电子邮件1/1/2014 TRUE NA John Webi ..
发布时间:2017-03-12 11:33:59 其他开发

在R数据表中将价格数据聚合到不同的时间范围

嗨,我想把data.table中的精确数据汇总到5分钟(或10分钟)。我知道这很容易通过使用xts和to.minutes5函数,但我不喜欢使用xts在这个实例中,因为数据集是相当大。在data.table中有一个简单的方法吗? 数据示例:在这个例子中,21.30到21.34之间的周期只有一行t = 21.30,open = 0.88703,high = 0.88799,low = 0.887 ..
发布时间:2017-03-12 11:33:35 其他开发