data.table相关内容

在data.table中使用eval

使用以下data.table: $ 我尝试将data.table中eval的行为理解为“框架” b $ b set.seed(1) foo = data.table(var1 = sample(1:3,1000,r = T) var2 = rnorm(1000),var3 = sample(letters [1:5],1000,replace = T)) $ b b 我试图复制 ..
发布时间:2017-03-12 11:45:54 其他开发

数据表中的时间序列为“ts”列?

我有多组时间序列数据,并希望帮助找出最好的方法,使他们进入R并分析他们与R.我非常熟悉data.table但不是那么熟悉R的 ts 类支持时间序列分析。 特别是,我想知道如何使用 ts 在这种情况下或如果 ts 中有限制(例如聚合一组 ts 数据 有大量的商店。对于每个商店,我每天有多个数据点,例如销售量(以美元计),销售量(以交易次数计)和商店流量(进入商店的人数)。 (实际上 ..
发布时间:2017-03-12 11:45:28 其他开发

R按大组数据的引导统计信息

我要引导其中包含组的数据集。一个简单的情况是引导简单的方法: data 0.5)) stat boot(data,stat,R = 10) b $ b 这会给我错误矩阵上的下标数不正确,因为 by =“group”部分。我设法使用子集化解决它,但不喜欢这个解决方案。是否有更简单的方法使这种任务工作? 特别是,我想在统计函数中引入一个额外的参数,如 stat(gr ..
发布时间:2017-03-12 11:45:03 其他开发

fread():读取带有\r\r\\\
作为换行符的表

我在文本文件中有制表符分隔表,其中所有行以 \r\r\\\ ( 0x0D 0x0D 0x0A )。如果我尝试用 fread()读取这样的文件,它说 结束是\r\r\\\ 。 R的download.file()似乎在Windows上的文本模式中添加了额外的\r 。请在二进制模式下重新下载 (mode ='wb'),这可能更快。或者,将URL 直接传递给fread,它将以二进制模式为 ..
发布时间:2017-03-12 11:44:51 其他开发

扩展数据表时出现奇怪错误

我们偶然发现了一些尝试扩展data.table的奇怪行为。以下代码可以正常工作: dt system.time(dt.expanded ##用户系统已过 ## 0.05 0.01 0.06 但使用以下 data.table set.seed(1) dt ..
发布时间:2017-03-12 11:44:39 其他开发

填写data.table的缺失日期的最快方法

我从包含日期,订单,金额等字段的CSV文件加载 data.table 。 输入文件偶尔没有所有日期的数据。例如,如下所示: > NADayWiseOrders 日期订单金额客人 1:2013-01-01 50 2272.55 149 2:2013-01-02 3 64.04 4 3:2013-01-04 1 18.81 0 4:2013-01-05 2 77.62 0 ..
发布时间:2017-03-12 11:44:15 其他开发

如何匹配两个data.frames与一个不完全匹配的标识符(一个标识符必须在另一个的范围内)

我有以下匹配问题:我有两个data.frames,一个每月(每个公司ID),一个观察每季度(每个公司ID;注意,季度表示财政季度;因此1Q = 对于每个月和公司,我想得到正确的值。因此,几个月在一个季度有相同的价值。例如,请参阅下面的代码: monthlyData ..
发布时间:2017-03-12 11:44:03 其他开发

data.table中的行操作

我想使用 data.table 尝试执行简单的总和和平均值,但我得到意想不到的结果。我遵循常见问题手册第2部分中的帮助 for data.table。我发现一种方式工作,但我不知道为什么这个方法在FAQ的第2节不是。 这个方法给我不正确的结果(例如,它给我第一列的值): dt [ ,genesum:= lapply(.SD,sum),by = gene] head(dt) 基因 ..
发布时间:2017-03-12 11:43:51 其他开发

大量行之间的差异

我有一个矩阵,行数非常大,只有两个成对列。我想计算列1中每行之间的差异,如果差异小于预定义值(.001),则计算两列中的行的平均值。例如,我有一个称为权重的矩阵, AB 185.0765 10 185.3171 20 186.0777 30 186.0780 40 188.0078 50 weight ..
发布时间:2017-03-12 11:43:39 其他开发

有效检查data.table中其他行的值

注意:这是我最初发布到data.table帮助论坛的问题。 Matt Dowle要求一个更详细的示例,我发布了这个,但我有电子邮件格式化的麻烦。我已经知道如何在SO上格式化,所以我想我将它发布在这里。 我基本上试图做的是子集行从基于data.table对该行中的值以及在前一行或后一行中的值。现在,我为未来和过去的行创建了新列,然后在这些列上键入data.table,但这是资源密集型和繁重的。 ..
发布时间:2017-03-12 11:43:27 其他开发

我可以使这个dplyr + data.table任务更快吗?

我想这是一个 dplyr 比 plyr 问题。为了速度的缘故,我在我写的一些代码中使用 data.table 。在中间步骤中,我有一个具有〜32,000行的一些基因组数据的表: bedbin.dt 资料来源:本地数据表[32,138 x 4] 小组:chr bin开始网站chr 1 2 3500000 ssCTCF 1 2 3 4000000 ssCTCF + Cohe ..
发布时间:2017-03-12 11:42:52 其他开发

数据表和分层手段

我有一些代码生成分层加权平均值和 我确定这在几个月前工作。但是,但我不知道当前的问题是什么。 (我道歉 - 这必须是非常基本的东西): dp = 结构seqn = c(1L,2L,3L,4L,6L,7L,8L,9L,10L, 11L,12L,13L,3L,4L,9L,10L,11L,14L,8L,11L,12L, 3L,9L,6L,7L),sex = c(2L,1L,2L,2L,1 ..
发布时间:2017-03-12 11:42:25 其他开发