data.table相关内容
我是一名教师,想正确使用R中的data.table包在日志文件中自动对学生的答案进行评分,即添加一个名为正确 如果学生对特定问题的回答是该问题的正确答案,否则为 0.如果每个问题只有一个答案,我可以轻松做到这一点,但如果一个问题有多个可能的答案(问题及其可能的正确答案存储在另一个表中),我会被绊倒 下面是 MWE: set.seed(123)question_table
..
在“Reshape2 简介"包中,Sean C. Anderson 提供了以下示例. 他使用空气质量数据并重命名列名 names(airquality)
..
..
我有一个存储为 data.table DT 的数据集,如下所示: 打印(DT)类别行业1:行政管理员2:执业护士卡车3:货运卡车4:管理管理员5:仓储护士6:仓储管理员7:货运卡车8:执业护士护士9:执业护士卡车 我想将表格缩减为只有行业与类别匹配的行.我的一般方法是使用 grepl() 正则表达式匹配字符串 '^{{INDUSTRY}}[az ]+$' 和 DT$ 的每一行类别,使用 inf
..
对于以下数据集: d = data.frame(date = as.Date(as.Date('2015-01-01'):as.Date('2015-04-10'), origin = "1970-01-01"),组=代表(c('A','B','C','D'),25),值=样本(1:100))头(d)日期组值1: 2015-01-01 A 42:2015-01-02 B 323:2015-01-
..
我正在寻找用于操作 data.table 对象的模式,这些对象的结构类似于使用 reshape2 包中的 melt 创建的数据帧.我正在处理具有数百万行的数据表.性能至关重要. 问题的一般形式是是否有一种方法可以根据列中的值子集执行分组,并让分组操作的结果创建一个或多个新列. 问题的一种具体形式可能是如何使用 data.table 来完成与 dcast 在以下方面的等效操作: 输入
..
如果data.table中的列名是数字+字符的形式,例如:4PCS,5Y 等,如何在 x[i,j] 中将其引用为 j 以便将其解释为不带引号的列名. 我认为这将解决我原来的问题.我想在“data.table"中添加几列,格式为 number + character. M >M[,'5Y',with=FALSE]5年[1,] 4[2,] 3[3,]2[4,] 1 那么此类参考的功能将受到限
..
我正在努力解决似乎应该是我问过的上一个问题的简单扩展 这里. 我正在尝试汇总 (a) 日期范围和 (b) 因子变量.样本数据可能是: 品牌日 Rev RVP1 2535.00 195.00乙 1 1785.45 43.55C 1 1730.87 32.662 920.00 230.00乙 2 248.22 48.99C 3 16466.00 189.001 2535.00 195.00乙
..
我经常有表格,其中单个单元格可能包含多个值(由一些字符分隔符划分),我需要拆分这些记录,例如: dt1 应该这样写: # V1 V2 V3# 1: x b 1# 2: x c 1# 3: x d 1# 4: y d 2#5:y ef 2# 6: z d 3# 7: z ef 3 到目前为止,我做了以下功能: # 我在这里省略了所有的错误检查代码并假设# dtInput 是一个有效的 d
..
在 R 2.15.0 和 data.table 1.8.9 中: d = data.table(a = 1:5, value = 2:6, key = "a")d[J(3), 值]# 一个值# 3 4d[J(3)][, 值]#4 我希望两者都能产生相同的输出(第二个),我相信他们应该. 为了澄清这不是 J 语法问题,相同的期望适用于以下(与上述相同)表达式: t = data.ta
..
对此问题(来自R data.table的唯一排序行单列) 提出了三种不同的方法来从 data.table 中获取排序唯一值的向量: #1排序(salesdt [,唯一(公司)])#2排序(唯一(salesdt$company))#3salesdt [订单(公司),唯一(公司)] 另一个answer建议了除字典顺序之外的其他排序选项: salesdt[, .N, by = company][o
..
我试图更好地了解 data.table 包中的一些特殊变量是如何工作的.其中之一是 .BY 语句.我没有看到很多人使用它的例子,但文档暗示它对绘图很有用. 例如,以下代码在 data.table 1.9.3 中似乎运行良好(显示每个物种的图并为每个图分配正确的标题): iris
..
我一直在研究 fuzzyjoin 以将 2 个数据帧连接在一起,但是由于内存问题,连接导致 无法分配...的内存.所以我正在尝试使用 data.table 加入数据.数据示例如下. df1 看起来像: ID f_date ACCNUM flmNUM start_date end_date1 50341 2002-03-08 0001104659-02-000656 2571187 200
..
根据NEWS,数据.table 现在已经融化了. 我看到它并去下载 data.table 1.8.11,当我去安装它时,我收到一个错误,它不适用于 R 2.15.3(这是我使用的版本).基于此,我更新到 R 3.0.1 并尝试再次安装它...... >install.packages("C:/[路径]/data.table_1.8.11.zip", repos = NULL)install
..
在分析一些数据时,我遇到了警告消息,我怀疑这是一个错误,因为这是一个非常简单的命令,我已经使用过很多次了. 警告信息:在 rbindlist(allargs) 中:强制引入的 NA 我能够重现该错误.这是您应该能够重现错误的代码. # V1 列的唯一随机名称set.seed(45)n 1) 如果您不提供列名,似乎会发生这种情况. 2) 即便如此,特别是当 V1(或您在 by= 中使
..
我想确定一个大data.table的列类. colClasses 内存大小()[1] 687.59>colClasses 内存大小()[1] 1346.21 循环似乎是不可能的,因为 data.table "with=FALSE" 总是
..
我注意到当 x 也是同一个数据表中的一列时,get(x) 在 R 数据表中不起作用.请参阅下面的代码片段.在编写将数据表作为输入的 R 函数时,这很难完全避免.这是 R data.table 包中的错误吗?谢谢! 库(data.table)dt = data.table(x=1:3, y=2:4)变量 = 'y'x = 'y'dt[, 3*get(var)] # [1] 6 9 12dt[, 3
..
这是我的交易数据.它显示了从 from 列中的帐户到 to 列中的帐户进行的交易以及日期和金额信息 数据id 从至今 金额19521 6644 6934 2005-01-01 700.019524 6753 8456 2005-01-01 600.019523 9242 9333 2005-01-01 1000.0………………1056317 7
..
我正在使用新版本的 data.table,尤其是 AWESOME fread 函数.我的文件包含作为字符串加载的日期(因为我不知道该怎么做)看起来像 01APR2008:09:00:00. 我需要根据这些日期时间对 data.table 进行排序,然后以 IDateTime 格式(或其他我还不知道的格式)进行有效排序. >strptime("01APR2008:09:00:00","%d%
..
我有以下 data.frame: id 名称 altNames1001 琼字符(0)第1002章第1003章第1004章1005汤姆字符(0) altNames 列可以为空(即字符(0)),只有一个名称,或名称列表.我想要的是一个 data.frame (或一个列表),其中来自 name 和/或 altNames 的每个条目与相应的条目一起只出现一次id,像这样: id 名称第1001章第1
..