data.table相关内容
我不知道我可以在这里提出这个问题,让我知道,如果我应该在别的地方做。 我有一个data.table 1e6行具有以下结构: V1 V2 V3 1:03/09/2011 08:05:40 1145.0 2:03/09/2011 08:06:01 1207.3 3:03/09/2011 08:06:17 1198.8 4:03/09/2011 08:06:20 1158.
..
我发现了一个很好的例子,使用ggplot和ddply在这里绘制凸包形状: 使用ggplot绘制多个geom_point组周围的轮廓 我想我会尝试类似的东西 - Ashby Diagram - 使用data.table包进行练习: test { library(data.table) library(ggplot2) set.seed(1) 这里我定义一个
..
我在data.table(1.8.8,R 3.0.1)中使用fread尝试读取非常大的文件。 问题文件有313行和约6.6百万列数字数据行,文件大约12GB。这是一个Centos 6.4与512GB的内存。 当我尝试读入文件时: g =用户从'auto'更改为TRUE 错误:protect():保护堆栈溢出 ('final.results',header = T,
..
获得 情境和我的问题,我想从数据框+ plyr切换到数据表。 在我处理时,我注意到峰值内存使用率从3.5GB增加到6.8GB(根据Windows任务当我使用:= 为我的数据集添加了一个新列,其中包含约200K行到2.5K列。 然后我尝试200M行25码,增加从6GB到7.6GB,之后,在 gc()。 有关添加新列的详细信息,Matt Dowle自己提到了这里: 它的:
..
我想转换: library(data.table) n
..
注意:我在此问题中输入的确切问题不适用于最近版本的数据表。如果您想执行标题中描述的操作,请查看常见问题解答中的相应问题: 提前知道表达式。 我已经看过
..
以下代码将我的 R 2.15.0 隔离,运行 data.table 1.8.9 。 library(data.table) d = data.table(date = c(1,2,3,4,5) ,value = c(1,2,3,4,5)) #按预期工作 d [-5] [,mean(value),by = list .integer((date + 1)/ 2))]] #crash
..
我试图从文档中了解 data.table 中的逻辑,有点不清楚。我知道我可以试试这个,看看会发生什么,但我想确保没有病理情况,因此想知道逻辑如何实际编码。当两个 data.table 对象具有不同数量的键列时,例如 a 有2和 b 有3,并且您运行 c ,将 a 和 b 简单地合并到前两个键列,或者a中的第三列自动合并到 b中的第三个键列?示例: require(data.table) a
..
我想使用 data.table 来提高给定函数的速度,但我不确定我是否以正确的方式实现它: 数据 给定两个 data.table s( dt 和 dt_lookup ) library(data.table) set.seed(1234) t
..
我的数据 我有一个data.table DT 与当前( F0YR )和下一个( F1YR )会计年度末(FYE)编码为整数。由于下一个FYE将最终变为 a当前FYE,整数将在 F1YR 和 F0YR 。此外,我的数据包含每月观察,因此相同的FYE将在数据集 多次: data_table) DT MONTH = rep(100L:108L,times = 2), F0YR =
..
我有一个包含一些组的 data.table 。我操作每个组,一些组返回数字,其他返回 NA 。由于某些原因 data.table 无法将所有内容放回一起。这是一个错误还是我误会?这是一个例子: dtb f dtb [,f(a),by = a] 错误在`[.data.table`(dtb,,f(a),by = a)中: j的列不会对每个组求值为一致类型:组9的结果具有列1类型'逻辑
..
困难的问题到短语。这里是我想做的一个例子。我开始的一个例子: set.seed(0) dt
..
我有以下,有点大的数据集: > dim(dset) [1] 422105 25 > class(dset) [1]“data.frame” > 不做任何事情,R进程似乎需要大约1GB的RAM。 我试图运行以下代码: dset< ; - ddply(dset,。(tic),transform, date.min date.max da
..
我的问题可能听起来很蠢,但我注意到。和% 我已经在 dplyr (go 这里为例)和 data.table (即 .SD ) 因此,我的问题是: 。是什么意思?是否是某种 R 编码最佳实践命名法? ( _functionName 通常用在 javascript 中,表示它是一个私有函数)。 %的相同问题,也经常在R中使用(即 $ b $> b 我的猜测总是一直是。和%函
..
我使用data.table(还提供了一个dplyr示例)来探索不同的方法来封装聚合函数(但真正可以是任何类型的函数),并且想知道关于函数式编程/元编程的最佳实践 性能(实施与数据表可能应用的潜在优化相关) 可读性(是否有一个通用的协议标准,例如在使用data.table的大多数包中) 易于泛化(元程序设计方式是“可泛化的” b $ b 基本应用程序是灵活地聚合表,即参数化要聚合的变
..
这是我的数据框看起来像。两个最右边的列是我所需的列。这两列检查条件是否在最近21天有一个“电子邮件”ActivityType,以及在最近21天是否有一个“网络研讨会”ActivityType。 姓名ActivityType ActivityDate电子邮件(last21days)网络研讨会(last21day)** John电子邮件1/1/2014 TRUE NA John Webi
..
嗨,我想把data.table中的精确数据汇总到5分钟(或10分钟)。我知道这很容易通过使用xts和to.minutes5函数,但我不喜欢使用xts在这个实例中,因为数据集是相当大。在data.table中有一个简单的方法吗? 数据示例:在这个例子中,21.30到21.34之间的周期只有一行t = 21.30,open = 0.88703,high = 0.88799,low = 0.887
..
我试图使用数据表在R中建模一个分期偿还贷款帐户。每行代表一个月。 例如: > loan
..
假设我在10年内有5个国家的分数,例如: mydata mydata
..
这似乎是 fread 错误,但我不确定。 此示例重现了我的问题。我有一个函数,我读一个data.table并返回一个列表。我使用列表分组其他结果在相同的结构。这里我的代码: ff.fread
..