data.table相关内容

data.table 中的 ifelse 赋值

我是一名教师,想正确使用R中的data.table包在日志文件中自动对学生的答案进行评分,即添加一个名为正确 如果学生对特定问题的回答是该问题的正确答案,否则为 0.如果每个问题只有一个答案,我可以轻松做到这一点,但如果一个问题有多个可能的答案(问题及其可能的正确答案存储在另一个表中),我会被绊倒 下面是 MWE: set.seed(123)question_table ..
发布时间:2022-01-13 19:29:08 其他开发

通过 data.table (R) 循环 grepl()

我有一个存储为 data.table DT 的数据集,如下所示: 打印(DT)类别行业1:行政管理员2:执业护士卡车3:货运卡车4:管理管理员5:仓储护士6:仓储管理员7:货运卡车8:执业护士护士9:执业护士卡车 我想将表格缩减为只有行业与类别匹配的行.我的一般方法是使用 grepl() 正则表达式匹配字符串 '^{{INDUSTRY}}[az ]+$' 和 DT$ 的每一行类别,使用 inf ..
发布时间:2022-01-13 19:28:37 其他开发

各组累计

对于以下数据集: d = data.frame(date = as.Date(as.Date('2015-01-01'):as.Date('2015-04-10'), origin = "1970-01-01"),组=代表(c('A','B','C','D'),25),值=样本(1:100))头(d)日期组值1: 2015-01-01 A 42:2015-01-02 B 323:2015-01- ..
发布时间:2022-01-13 19:28:31 其他开发

快速融化的数据表操作

我正在寻找用于操作 data.table 对象的模式,这些对象的结构类似于使用 reshape2 包中的 melt 创建的数据帧.我正在处理具有数百万行的数据表.性能至关重要. 问题的一般形式是是否有一种方法可以根据列中的值子集执行分组,并让分组操作的结果创建一个或多个新列. 问题的一种具体形式可能是如何使用 data.table 来完成与 dcast 在以下方面的等效操作: 输入 ..
发布时间:2022-01-13 19:28:25 其他开发

如何在 data.table 中引用以数字开头的列名

如果data.table中的列名是数字+字符的形式,例如:4PCS,5Y 等,如何在 x[i,j] 中将其引用为 j 以便将其解释为不带引号的列名. 我认为这将解决我原来的问题.我想在“data.table"中添加几列,格式为 number + character. M >M[,'5Y',with=FALSE]5年[1,] 4[2,] 3[3,]2[4,] 1 那么此类参考的功能将受到限 ..
发布时间:2022-01-13 19:28:15 其他开发

使用 data.table 创建一列回归系数

我正在努力解决似乎应该是我问过的上一个问题的简单扩展 这里. 我正在尝试汇总 (a) 日期范围和 (b) 因子变量.样本数据可能是: 品牌日 Rev RVP1 2535.00 195.00乙 1 1785.45 43.55C 1 1730.87 32.662 920.00 230.00乙 2 248.22 48.99C 3 16466.00 189.001 2535.00 195.00乙 ..
发布时间:2022-01-13 19:27:48 其他开发

将 data.table 中的列拆分为多行

我经常有表格,其中单个单元格可能包含多个值(由一些字符分隔符划分),我需要拆分这些记录,例如: dt1 应该这样写: # V1 V2 V3# 1: x b 1# 2: x c 1# 3: x d 1# 4: y d 2#5:y ef 2# 6: z d 3# 7: z ef 3 到目前为止,我做了以下功能: # 我在这里省略了所有的错误检查代码并假设# dtInput 是一个有效的 d ..
发布时间:2022-01-13 19:27:40 其他开发

data.table 连接和 j-expression 意外行为

在 R 2.15.0 和 data.table 1.8.9 中: d = data.table(a = 1:5, value = 2:6, key = "a")d[J(3), 值]# 一个值# 3 4d[J(3)][, 值]#4 我希望两者都能产生相同的输出(第二个),我相信他们应该. 为了澄清这不是 J 语法问题,相同的期望适用于以下(与上述相同)表达式: t = data.ta ..
发布时间:2022-01-13 19:27:30 其他开发

在 data.table 包中使用 .BY 和 .EACHI

我试图更好地了解 data.table 包中的一些特殊变量是如何工作的.其中之一是 .BY 语句.我没有看到很多人使用它的例子,但文档暗示它对绘图很有用. 例如,以下代码在 data.table 1.9.3 中似乎运行良好(显示每个物种的图并为每个图分配正确的标题): iris ..
发布时间:2022-01-13 19:27:04 其他开发

使用 data.table 模糊连接两个数据帧

我一直在研究 fuzzyjoin 以将 2 个数据帧连接在一起,但是由于内存问题,连接导致 无法分配...的内存.所以我正在尝试使用 data.table 加入数据.数据示例如下. df1 看起来像: ID f_date ACCNUM flmNUM start_date end_date1 50341 2002-03-08 0001104659-02-000656 2571187 200 ..
发布时间:2022-01-13 19:26:54 其他开发

安装新版本的 data.table(特别是 Rforge 的 1.8.11)

根据NEWS,数据.table 现在已经融化了. 我看到它并去下载 data.table 1.8.11,当我去安装它时,我收到一个错误,它不适用于 R 2.15.3(这是我使用的版本).基于此,我更新到 R 3.0.1 并尝试再次安装它...... >install.packages("C:/[路径]/data.table_1.8.11.zip", repos = NULL)install ..
发布时间:2022-01-13 19:26:39 其他开发

警告消息:在 rbindlist(allargs) 中:强制引入的 NA:data.table 中可能存在错误?

在分析一些数据时,我遇到了警告消息,我怀疑这是一个错误,因为这是一个非常简单的命令,我已经使用过很多次了. 警告信息:在 rbindlist(allargs) 中:强制引入的 NA 我能够重现该错误.这是您应该能够重现错误的代码. # V1 列的唯一随机名称set.seed(45)n 1) 如果您不提供列名,似乎会发生这种情况. 2) 即便如此,特别是当 V1(或您在 by= 中使 ..
发布时间:2022-01-13 19:26:31 其他开发

将字符串直接转换为 IDateTime

我正在使用新版本的 data.table,尤其是 AWESOME fread 函数.我的文件包含作为字符串加载的日期(因为我不知道该怎么做)看起来像 01APR2008:09:00:00. 我需要根据这些日期时间对 data.table 进行排序,然后以 IDateTime 格式(或其他我还不知道的格式)进行有效排序. >strptime("01APR2008:09:00:00","%d% ..
发布时间:2022-01-13 19:25:59 其他开发

在 data.frame 的列中解包和合并列表

我有以下 data.frame: id 名称 altNames1001 琼字符(0)第1002章第1003章第1004章1005汤姆字符(0) altNames 列可以为空(即字符(0)),只有一个名称,或名称列表.我想要的是一个 data.frame (或一个列表),其中来自 name 和/或 altNames 的每个条目与相应的条目一起只出现一次id,像这样: id 名称第1001章第1 ..
发布时间:2022-01-13 19:25:44 其他开发