data.table相关内容

在 data.table 中使用带有 .SD 的 na.locf 函数(zoo 包)

我正在尝试填写所有 NA,不包括第 1 列和第 4 列的前两个 NA,以及第 2 列和第 3 列的三个 NA,以及最近的非 NA 值.这是我的数据和代码: hh 但是,我正在寻找将 lapply 与 .SD 一起使用,因为每种类型都有两列以上.这可能吗? 解决方案 试试 setDT(hh)[, lapply(.SD, function(x) na.locf(x, na.rm=FA ..
发布时间:2022-01-13 19:38:08 其他开发

从 POSIXct 对象中减去正好一年

假设我们有这个日期“2014-05-11 14:45:00 UTC".我想在“2013-05-11 14:45:00 UTC"之前获得 1 年的确切 POSIXct 对象. 我的第一个想法是创建一个全新的 POSIXct 对象,方法是从年份位中减去一个并将其与字符串的其余部分一起粘贴,然后使用该字符串创建一个新的 POSIXct 对象,如下所示: time 这很好用(闰年除外!)但问题 ..
发布时间:2022-01-13 19:38:02 其他开发

做一个“模糊"并且不模糊,多对一与 data.table 合并

假设我有两个数据库 dfA 和 dfB.一个有个人观察,一个有国家级数据(适用于来自同一年份和国家的多个观察)对于这些数据库中的每一个,我都创建了一个名为 matchcode 的键.此匹配代码是国家代码和年份的组合. dfA 大多数情况下,当我合并这些数据集时,我只是这样做: dfA 问题是有时年份并不完全匹配.所以我尝试了: dfA ..
发布时间:2022-01-13 19:37:47 其他开发

从 data.table 中删除仅包含 NA 的行

我想从 data.table 中删除仅包含 NA 的行. >tab = data.table(A = c(1, NA, 3), B = c(NA, NA, 3))>标签甲乙1:1 不适用2:NA NA3:3 3 通常我会用 apply(dat, 1, ...) 来做,不幸的是它不适用于 data.table 但它导致我这个不优雅的解决方案: >选项卡[应用(as.data.frame(选项卡 ..
发布时间:2022-01-13 19:37:28 其他开发

data.table - 加入 NA 键

可能重复: 在R中的data.table中选择NA 只是想知道这是预期的功能还是 data.table 中的错误? a = data.frame(a=c(NA,1),aa=c(0,11))b = data.frame(a=c(1),bb=c(11))合并(a,b,all.x=T,by="a")啊啊啊啊啊1 1 11 112 不适用 0 不适用a = data.table(a=c(NA,1 ..
发布时间:2022-01-13 19:37:21 其他开发

平衡(为每个人创建相同数量的行)数据

给定如下data.table,id1是subject-level ID,id2是in-subject repeat-measure ID,X 是有很多的数据变量.我想平衡数据,使每个人都有相同的行数(重复测量),即 max(DT[,.N,by=id1][,N]),但是其中 id1 和 id2 会根据需要进行调整,对于这些新行,X 数据值将替换为 NA. 以下内容: DT = data.ta ..
发布时间:2022-01-13 19:37:07 其他开发

data.frame 和 data.table 的 R 对象具有相同的类型?

我对 R 还是很陌生,最近遇到了一些我不确定它是什么意思的东西.data.frame 和 data.table 有相同的类型吗?一个对象可以有多种类型吗?将“汽车"从 data.frame 转换为 data.table 后,我显然无法应用适用于 data.frames 的函数,而不是data.table,但 class() 显示“汽车"仍然是一个 data.frame.有人知道为什么吗? >类( ..
发布时间:2022-01-13 19:36:57 其他开发

更快的 i, j 矩阵单元填充

我想获取 data.frame/matrix 的列并在数据帧的每个单元格 ([i, j]) 之间应用一个函数,其中 i 和 j 是沿列的序列的data.frame.基本上,我想以与 cor 函数处理 data.frame 相同的方式填充单个单元格的矩阵. 这是一个相关问题:创建一个函数的矩阵和两个数字数据框 但是,我在随机化测试中使用它并多次重复该操作(制作许多矩阵).我正在寻找执行此操作的 ..
发布时间:2022-01-13 19:36:48 其他开发

选择要在 data.table 中保留/删除的组

如何根据 data.table 中的条件删除/保留组?有没有比添加新列,然后过滤该列并删除它更好的方法? set.seed(0)dt %group_by(a) %>%过滤器(2 %in% b)# # 一个小标题:6 x 2## 组:a [2]# a b## 1 1 5# 2 1 2# 3 1 2# 4 2 3# 5 2 5# 6 2 2 基准测试看看 .I 是否更快.201 ..
发布时间:2022-01-13 19:36:38 其他开发

将值从宽更改为长:1) Group_By, 2) Spread/Dcast

我有一个电话号码名称列表,我想按名称对其进行分组,然后将它们从长格式变为宽格式,并在各列中填充电话号码 姓名电话号码约翰·多伊 0123456约翰·多伊 0123457约翰·多伊 0123458吉姆·多伊 0123459吉姆·多伊 0123450简·多伊 0123451吉尔·多伊 0123457姓名 Phone_Number1 Phone_Number2 Phone_Number3约翰·多伊 0 ..
发布时间:2022-01-13 19:36:21 其他开发

在 R 中的一小组列中查找具有重复值的行

假设有一个 data.table,在其他四列中有一个 id 和整数值.如何有效地找到其他四列中四个值中至少有两个相同的行? fooTbl = data.table(id = c('a', 'b'), ind1=c(1,2), ind2=c(3,4), ind3=c(2,3), ind4=c(2,1))足坛# id ind1 ind2 ind3 ind4# 1: 1 3 2 2# 2: b 2 4 ..
发布时间:2022-01-13 19:36:15 其他开发

data.table::fread 和不平衡的 "

当我尝试使用 data.table:fread(fn, sep='\t', header=T) 读取 csv 文件时,它给出了“在这一行观察到的“不平衡"错误.数据有3个整数变量和1个字符串变量.csv文件中的字符串没有用"括起来,是的,有些行包含"字符串变量和 " 字符不是成对的. 我想知道是否可以让 fread 忽略变量中未配对的 " 并继续读取数据?谢谢. 这里是示例数据(只有一 ..
发布时间:2022-01-13 19:36:05 其他开发

在 R 中为 N、Min/Max、SD、Mean 和 Median 创建一个表

我是 R 的新手,所以请耐心等待这个基本问题.我有一个使用 data.table 包创建的数据集 DATA.我在 0 和 1 之间创建了 200 个随机数,然后做了 10000 次,最后为每次迭代创建了一个带有描述性统计的数据表.我的代码如下所示: rndm 数据看起来像这样: 平均中位数 SD 最小值 最大值1 0.521 0.499 0.287 0.010 0.9982 0.511 0 ..
发布时间:2022-01-13 19:35:58 其他开发

在 data.table 中四舍五入并过滤

我有一个非常有趣的问题,虽然我不想有一个.我必须将一个数字四舍五入,所以我遵循了解决方案 here它曾经工作正常,直到我发现 data.table 的错误 库(data.table)options(digits = 20) # 查看数字表示mround ..
发布时间:2022-01-13 19:35:50 其他开发

使用 data.table 进行不完美的字符串匹配

好的,所以我不久前发布了一个关于编写 R 函数以加速大型文本文件的字符串匹配的问题.我睁大眼睛看到“data.table",我的问题得到了完美的回答. 这是该线程的链接,其中包含所有数据和详细信息: 加速 R 中字符串匹配的性能和速度 但现在我遇到了另一个问题.有时,由于在 DMV 填写汽车信息时的人为错误,提交的 VIN#s(在“vinDB"文件中)与“carFile"文件中的 ..
发布时间:2022-01-13 19:35:44 其他开发

在 R 数据表中替代较慢的 ifelse

我正在编写一个函数,其中多个 ifelse 用于数据表操作.尽管我使用数据表来提高速度,但是多个 ifelse 使我的代码变慢,并且此功能适用于大型数据集.因此,我想知道是否有 iflese 的替代品.函数中的一个示例 iflese(有接近 15 个 iflese ),在此示例中,如果 x 为空白,则标志设置为 1,否则为 0. dt 解决方案 最快的方法可能取决于你的数据是什么样的.评论 ..
发布时间:2022-01-13 19:35:29 其他开发