data.table相关内容

如何在 R 中将二维数据框“展平"或“折叠"为一维数据框?

我在 R 中的 data.frame 中有一个带有距离的二维表(从 csv 导入): CP000036 CP001063 CP001368CP000036 0 a bCP001063 a 0 cCP001368 b c 0 我想“压平"它.我在第一个列中有一个轴的值​​,在第二个列中有其他轴的值,然后在第三列中有距离: Genome1 Genome2 DistCP000036 CP0010 ..
发布时间:2021-11-24 22:12:03 C#

R中邻居的空间数据/计算指标

我有 (xBin, yBin, value) 形式的二维空间数据.例如: DT = data.table(x=c(rep(1,3),rep(2,3),rep(3,3)),y=rep(c(1,2,3),3),值=100*c(1:9)) 对于每个 bin,我想计算所有相邻 bin 的变量“值"的总和.如果一个 bin 的两个索引 - x 和 y 都在当前 bin 的一个单位内,则该 bin 被认为 ..
发布时间:2021-11-24 22:03:43 C#

如何优化大型 R 数据框中每一行的过滤和计数

我有一个数据框,如下所示: 姓名日工资1 安 1 1002 安 1 1503 安 2 2004 安 3 1505 鲍勃 1 1006 鲍勃 1 2007 鲍勃 1 1508 鲍勃 2 100 对于每个唯一的姓名/日期对,我想计算一个总数范围,例如“此人当天或第二天的工资超过 175 的次数".列比工资多得多,并且有四个时间片适用于每一行的每个总计. 我目前可以通过对我的数据框进行唯一化 ..
发布时间:2021-11-16 23:19:10 其他开发

根据 R 中的相同条件过滤多列

我有一个数据框,其中有多个列(超过 30 个)保存在一个列表中.我想对所有这些列应用相同的标准,而无需为每一列编写每个代码.我有下面的例子来帮助更好地理解我的问题 A ..
发布时间:2021-11-16 23:17:43 其他开发

R - 两个 data.tables 的匹配值的索引

这是我在 StackOverflow 上的第一篇文章.我相对来说是编程新手,并试图在 R 中使用 data.table,因为它在速度方面享有盛誉. 我有一个非常大的 data.table,名为“Actions",有 5 列,可能有几百万行.列名是 k1、k2、i、l1 和 l2.我有另一个 data.table,在列 k1 和 k2 中具有唯一的 Actions 值,名为“States". ..
发布时间:2021-11-16 23:15:06 其他开发

快速测试 R 数据框以查看一列中的行值是否在数据框中的另一列内

我有一个包含 22k 条记录和 6 列的营销数据数据框,其中 2 列是我们感兴趣的. 变量 FO.变量 这是数据帧示例的 dput 输出的链接:http://dpaste.com/2SJ6DPX 如果有更好的方式来共享这些数据,请告诉我. 我想要做的就是创建一个额外的二进制保持列,它应该是: 1 如果 FO.variable 在 Variable 内 0 如果 F ..
发布时间:2021-11-16 23:14:48 其他开发

应用于 data.table 的行:查找列的子集都是 NA 的行

我正在尝试使用 data.table 包重写旧的(慢)代码,以找出将 apply 与数据一起使用的最佳方法.桌子. 我有一个包含多个 id 列的 data.table,然后是多个具有宽格式剂量反应数据的列.我需要概括答案,因为并非所有 data.tables 都具有相同数量的剂量反应列.为简单起见,我认为以下 data.table 解决了这个问题: library(data.table)图 ..
发布时间:2021-11-16 23:12:19 其他开发

R plyr,data.table,应用data.frame的某些列

我正在寻找加快代码速度的方法.我正在研究 apply/ply 方法以及 data.table.不幸的是,我遇到了问题. 这是一个小示例数据: ids1 这是一个使用循环的解决方案: library("plyr")cols_to_fix ..
发布时间:2021-11-16 23:10:29 其他开发

在 R 中使用具有多个线程的 data.table

有没有办法在 R 中使用 data.table 来利用多个线程进行计算?例如,假设我有以下 data.table: dtb 如果 f 需要一段时间来计算,有没有办法让 R 多线程?如果 f 速度很快,多线程是否会有所帮助,或者 data.table 将花费大部分时间来将事情分成几组呢?> 解决方案 我不确定这是“多线程",但也许您打算包含多核解决方案?如果是这样,请查看之前的答案:通过数 ..
发布时间:2021-11-16 23:09:50 其他开发

如何用 na.spline 替换 data.table 中的 NA 值

我正在尝试准备一些从 Eurostat 检索到的人口统计数据以供进一步处理,其中包括用相应的近似数据替换任何缺失的数据. 起初我只使用 data.frames,但后来我确信 data.tables 可能比常规 data.frames 提供一些优势,所以我迁移到 data.tables. 我在这样做时观察到的一件事是,将“na.spline"与“apply"结合使用时得到不同的结果,而“ ..
发布时间:2021-11-16 23:06:42 其他开发

如何计算按财政季度分组的日期平均值

我有下表: 日期国家类别值6/1/2010 美国 A 456/1/2010 加拿大 A 236/1/2010 巴西 B 659/1/2010 美国 B 479/1/2010 加拿大 A 989/1/2010 巴西 B 2512/1/2010 美国 B 1412/1/2010 加拿大 A 7912/1/2010 巴西 A 233/1/2011 美国 A 843/1/2011 加拿大 B 773/ ..
发布时间:2021-11-16 23:05:53 其他开发

Data.table:如何获得它承诺的极快的子集并应用于第二个 data.table

我正在尝试基于另一个数据集 (lsr) 的子集来丰富一个数据集(依从性).对于依从性中的每一行,我想计算(作为第三列)可用于实施规定方案的药物.我有一个返回相关结果的函数,但它仅在我必须运行的总数据的一个子集上运行数天. 数据集是: 库(dplyr)图书馆(整理)图书馆(润滑)图书馆(数据表)坚持 ..
发布时间:2021-11-16 23:05:29 其他开发

使用 data.table 加速 rollapply

我是 data.tables 的新手,如果这是一个非常基本的问题,我深表歉意. 我听说 data.tables 在处理大量数据时显着缩短了计算时间,因此想看看 data.table 是否能够帮助加速 rollapply 函数. 如果我们有一些单变量数据 xts.obj ..
发布时间:2021-11-16 23:05:01 其他开发

拆分在 R 中应用重组、plyr、data.table

我正在 R 中做经典的拆分-应用-重组.随着时间的推移,我的数据集是一堆公司.我正在做的应用是对每个公司进行回归并返回残差,因此,我没有按公司聚合.plyr 对此非常有用,但是当公司数量很大时,它需要很长时间才能运行.有没有办法用 data.table 做到这一点? 样本数据: dte, id, val1, val22001-10-02, 1, 10, 252001-10-03, 1, 1 ..
发布时间:2021-11-16 23:03:42 其他开发

读取固定宽度文件的更快方法

我处理了许多需要读入 R 的固定宽度文件(即没有分隔符).因此,通常有一个列宽定义来将字符串解析为变量.我可以使用 read.fwf 读取数据而不会出现问题.但是,对于大文件,这可能需要很长时间.对于最近的数据集,读取包含约 500,000 行和 143 个变量的数据集需要 800 秒. seer9 R 中 data.table 包中的 fread 非常适合解决大多数数据读取问题,只是它不 ..
发布时间:2021-11-16 22:58:45 其他开发

追加多个大的data.table;使用 colClasses 和 fread 自定义数据强制;命名管道

[这是一个帖子中的多个错误报告/功能请求,但它们不一定单独有意义.提前为怪物帖子道歉.按照帮助(data.table)的建议在此处发布.另外,我是 R 的新手;如果我没有在下面的代码中遵循最佳实践,我深表歉意.我正在尝试.] 1.rbindlist 在 6 * 8GB 文件上崩溃(我有 128GB RAM) 首先我想报告一下,使用 rbindlist 附加大型 data.tables ..
发布时间:2021-11-16 19:35:09 其他开发