data.table相关内容
我正在尝试与 data.tables 进行一些左连接合并.包装说明引用了 在所有连接中,列的名称是不相关的;x的键的列是按顺序连接的 我知道我可以使用 .data.table[ 和 data.table:::merge.data.table 我想要的是:合并 X 和 Y 指定键(例如基础合并中的 by.x 和 by.y,->为什么要拿走这个?) 假设我有 DT = dat
..
fread 有没有办法模仿 read.table 的行为,其中变量的 class 由以下数据设置被读入. 我有数字数据,主要数据下方有一些评论.当我使用 fread 读取数据时,列将转换为字符.但是,通过在 read.table 中设置 nrow 我可以停止这种行为.这在 fread 中是否可能.(我不希望更改原始数据或制作修改后的副本).谢谢 一个例子 d 哪个产生 >str
..
虽然我在某个地方(不记得在哪里)读到过这些因素实际上并不比 data.table 中的字符向量更有效.这是真的?我在争论是否继续使用因子将各种向量存储在 data.table 中.object.size 的近似测试似乎表明并非如此. chars
..
我有两个数据框: 合作伙伴 这是一个购物篮分析.df1 是购买了列出的每个项目的客户/合作伙伴:A、B、C...等. df2 是与过去购买的物品相关的推荐. 每个 df2 行中的最后一个值代表建议.因此,从最后一个非 NA 值开始的每一行中的前面值是“篮子". 所以比如df2的第一行,就是说:如果B和A一起买,推荐G. 我希望能够弄清楚 df1 的每个合作伙伴是否购买了
..
假设你有类似的数据 fruits
..
我有一个包含日期、邮政编码和购买金额的 data.table. 库(data.table)set.seed(88)DT on= 表达式中查找符合我们条件的所有行;然后按行求和 (by=.EACHI).在这种情况下,非等值连接的效率可能低于某些滚动求和方法. 它是如何工作的. 要将列添加到 data.table,通常的语法是 DT[, new_col := expression].在这里,表达
..
我对以下事情感到惊讶: R) system.time(lastOrder
..
我的聚合需求因列/data.frames 而异.我想动态地将“list"参数传递给data.table. 作为一个最小的例子: require(data.table)类型
..
我有这样的 numeric 和非 numeric 列的数据: mydtvnum1 vint1 vfac1 vch11:-0.30159484 8 3 E2:-0.09833430 8 1 D3:-2.15963282 1 3 D4:0.03904374 5 2 B5:1.54928970 4 1 C6:-0.73873654 5 1 A7:-0.68594479 9 2 B8:1.3576561
..
我有一个相对较大的数据集(1,750,000 行,5 列),其中包含具有唯一 ID 值的记录(第一列),由四个标准(其他 4 列)描述.一个小例子是: # 示例库(数据表)dt
..
我刚刚在我的脚本中发现了这个有点奇怪的警告. # 警告信息:# In rbindlist(list(DT.1, DT.2)) : 强制引入的 NA 观察 1:这是一个可重现的示例: require(data.table)DT.1 但是,现在如果我将列 x 转换为 factor(是否有序)并执行相同操作: DT.1[, x := 因子(x)]rbindlist(列表(DT.1,DT.2)
..
我有一个 Shiny 应用程序可以生成一个数据表,但我无法冻结第一列和标题,因此当您向下或穿过时很难阅读该表.无论如何要冻结窗格吗?我已经尝试过搜索,但一无所获. 解决方案 有趣的问题,感谢 Shiny 最近更新到 data.tables 1.10.2使用各种插件和扩展要容易得多.对于您的问题,FixedHeader 扩展似乎很理想.要添加这个扩展,我们需要包含相关的 JavaScript
..
我想用同一列的平均值替换 DATA TABLE 列中存在的 NA.我正在做以下事情.但它不起作用. ww 为什么我用 NaN 代替 NA 而它应该是其余值(4.9、4.7、4.6、5.0)的平均值? 如果这种语法有问题,有什么替代方法可以实现? 我想要数据表的语法. 解决方案 na.aggregate zoo 包中的 NAs 替换为同列非 NAs 的均值: 图书馆(动物
..
我经常需要根据查找表重新编码数据框列中的一些(不是全部!)值.我对我所知道的解决问题的方法不满意.我希望能够以一种清晰、稳定和高效的方式进行.在我编写自己的函数之前,我想确保我没有重复一些已经存在的标准. ## 玩具示例数据 = 数据帧(id = 1:7,x = c(“A"、“A"、“B"、“C"、“D"、“AA"、“."))查找 = data.frame(旧 = c(“A"、“D"、“.")、
..
我经常发现人们以某种方式以未命名 未命名字符向量列表结束的问题,他们希望将它们逐行绑定到 data.frame.这是一个例子: 库(magrittr)数据 %拆分(1:3)%>% 未命名数据#[[1]]#[1]“A"“1"“4"“7"“12"##[[2]]#[1]“B"“2"“5"“8"“15"
..
虽然这些细节当然是特定于应用程序的,但本着 SO 的精神,我会尽量保持一般性!基本问题是当一个 data.frame 具有特定日期而另一个 data.frame 具有日期范围时,如何按日期合并 data.frames.其次,该问题询问如何处理给定变量的多个观察结果,以及如何将这些观察结果包含在最终输出 data.frame 中.我确信其中一些是标准的,但相当完整的搜索几乎没有发现什么. 我要
..
我不知道如何在 data.table 1.9.2 中充分利用 GForce 新优化:GForce.不是对数据进行分组,而是将组位置传递到 sum 和 mean(gsum 和 gmean)的分组版本中,然后在单个顺序遍历列中计算所有组的结果,以提高缓存效率.此外,由于 g* 函数只被调用一次,我们不需要为每个组寻找加快调用 sum 或 mean 的方法.` 提交以下代码时 DT 我
..
我最终得到了一个大 data.table,我必须对每行进行操作.(是的......我知道这显然不是 data.table 的用途) R) set.seed(1)R) DT=data.table(矩阵(rnorm(100),nrow=10))R) DT[,c('a','b'):=list(1:10,2:11)]右)DTV1 V2 V3 V4 V5 V6 V7 V8 V9 V10 a b1:-0.6
..
这似乎是 fread 错误,但我不确定. 这个例子重现了我的问题.我有一个函数,我在其中读取 data.table 并将其返回到列表中.我使用列表将其他结果分组到相同的结构中.这是我的代码: ff.fread
..
我正在学习 data.table.我很难转换 dplyr 连接语法.您能否为以下测试用例推荐 data.table 等效项? 库(data.table)图书馆(dplyr)dtProduct 案例 1:显示订单详情,不匹配的 ProductID 被隐藏 dtOrder %>%inner_join(dtProduct, by="ProductID") %>%transmute(OrderID
..