data.table相关内容
我想在data.table中同时创建一堆滞后的变量。我想让这些滞后的价值观是站和陆路。我有一些困难。这是我的示例data.table。 require(data.table) r
..
有人可以向我解释 matrix , data.frame 和 data.table ? 取一个10×10的矩阵 p> foo
..
使用以下data.table: $ 我尝试将data.table中eval的行为理解为“框架” b $ b set.seed(1) foo = data.table(var1 = sample(1:3,1000,r = T) var2 = rnorm(1000),var3 = sample(letters [1:5],1000,replace = T)) $ b b 我试图复制
..
在 data.table 中创建向量列的最有效的方法是,我们需要从第二个 data.table 。 例如,假设下面的两个data.tables ; A_ids.DT> rec_data_table name id bid counts names_list 1:A 1 1:301 21 C,E 2:B 2 2:302 21 E 3:C 3 3:303 5 H,E,G
..
我有多组时间序列数据,并希望帮助找出最好的方法,使他们进入R并分析他们与R.我非常熟悉data.table但不是那么熟悉R的 ts 类支持时间序列分析。 特别是,我想知道如何使用 ts 在这种情况下或如果 ts 中有限制(例如聚合一组 ts 数据 有大量的商店。对于每个商店,我每天有多个数据点,例如销售量(以美元计),销售量(以交易次数计)和商店流量(进入商店的人数)。 (实际上
..
我有 dt 和 dt1 data.table s。 dt dt1 dt id年事件 1:2 2005 1 2: 2 2006 0 3:2 2007 0 4:4 2005 0 5:4 2006 1 dt1 id年绩效 1:2 2005 1000 2:2 2006 1001 3:2 2007 1002 4:2 2008 1003
..
我要引导其中包含组的数据集。一个简单的情况是引导简单的方法: data 0.5)) stat boot(data,stat,R = 10) b $ b 这会给我错误矩阵上的下标数不正确,因为 by =“group”部分。我设法使用子集化解决它,但不喜欢这个解决方案。是否有更简单的方法使这种任务工作? 特别是,我想在统计函数中引入一个额外的参数,如 stat(gr
..
我在文本文件中有制表符分隔表,其中所有行以 \r\r\\\ ( 0x0D 0x0D 0x0A )。如果我尝试用 fread()读取这样的文件,它说 结束是\r\r\\\ 。 R的download.file()似乎在Windows上的文本模式中添加了额外的\r 。请在二进制模式下重新下载 (mode ='wb'),这可能更快。或者,将URL 直接传递给fread,它将以二进制模式为
..
我们偶然发现了一些尝试扩展data.table的奇怪行为。以下代码可以正常工作: dt system.time(dt.expanded ##用户系统已过 ## 0.05 0.01 0.06 但使用以下 data.table set.seed(1) dt
..
例如: dt
..
我从包含日期,订单,金额等字段的CSV文件加载 data.table 。 输入文件偶尔没有所有日期的数据。例如,如下所示: > NADayWiseOrders 日期订单金额客人 1:2013-01-01 50 2272.55 149 2:2013-01-02 3 64.04 4 3:2013-01-04 1 18.81 0 4:2013-01-05 2 77.62 0
..
我有以下匹配问题:我有两个data.frames,一个每月(每个公司ID),一个观察每季度(每个公司ID;注意,季度表示财政季度;因此1Q = 对于每个月和公司,我想得到正确的值。因此,几个月在一个季度有相同的价值。例如,请参阅下面的代码: monthlyData
..
我想使用 data.table 尝试执行简单的总和和平均值,但我得到意想不到的结果。我遵循常见问题手册第2部分中的帮助 for data.table。我发现一种方式工作,但我不知道为什么这个方法在FAQ的第2节不是。 这个方法给我不正确的结果(例如,它给我第一列的值): dt [ ,genesum:= lapply(.SD,sum),by = gene] head(dt) 基因
..
我有一个矩阵,行数非常大,只有两个成对列。我想计算列1中每行之间的差异,如果差异小于预定义值(.001),则计算两列中的行的平均值。例如,我有一个称为权重的矩阵, AB 185.0765 10 185.3171 20 186.0777 30 186.0780 40 188.0078 50 weight
..
注意:这是我最初发布到data.table帮助论坛的问题。 Matt Dowle要求一个更详细的示例,我发布了这个,但我有电子邮件格式化的麻烦。我已经知道如何在SO上格式化,所以我想我将它发布在这里。 我基本上试图做的是子集行从基于data.table对该行中的值以及在前一行或后一行中的值。现在,我为未来和过去的行创建了新列,然后在这些列上键入data.table,但这是资源密集型和繁重的。
..
在我的应用程序中有一段代码,用于从 data.table 对象中检索信息,具体取决于另一个中的值。 #说这个表包含客户详细信息 dt
..
我在 R中有一个 data.table R >头(d) COUNT SAMPLE junction 1:1 R1 tup 2:1 R1 tup 3:1 R1 tai 4:1 R2 milt 5:2 R3 Bsg25D 6:1 R4 tutl > dim(d) [1] 1685992 3 现在我想找出对(SAMPLE,结
..
我想这是一个 dplyr 比 plyr 问题。为了速度的缘故,我在我写的一些代码中使用 data.table 。在中间步骤中,我有一个具有〜32,000行的一些基因组数据的表: bedbin.dt 资料来源:本地数据表[32,138 x 4] 小组:chr bin开始网站chr 1 2 3500000 ssCTCF 1 2 3 4000000 ssCTCF + Cohe
..
我见过一个解决方案,但不能让它为组工作 (在时间序列中只填充有限的数字),并认为还有一个更简洁的方法来做到这一点? 说我有以下dt: dt
..
我有一些代码生成分层加权平均值和 我确定这在几个月前工作。但是,但我不知道当前的问题是什么。 (我道歉 - 这必须是非常基本的东西): dp = 结构seqn = c(1L,2L,3L,4L,6L,7L,8L,9L,10L, 11L,12L,13L,3L,4L,9L,10L,11L,14L,8L,11L,12L, 3L,9L,6L,7L),sex = c(2L,1L,2L,2L,1
..