plyr相关内容
我正在 R 中做经典的拆分-应用-重组.随着时间的推移,我的数据集是一堆公司.我正在做的应用是对每个公司进行回归并返回残差,因此,我没有按公司聚合.plyr 对此非常有用,但是当公司数量很大时,它需要很长时间才能运行.有没有办法用 data.table 做到这一点? 样本数据: dte, id, val1, val22001-10-02, 1, 10, 252001-10-03, 1, 1
..
我经常需要对数据帧/矩阵中的每一对列应用一个函数,并在矩阵中返回结果.现在我总是写一个循环来做到这一点.例如,要制作一个包含我写的相关性 p 值的矩阵: df 有效,但对于非常大的矩阵来说很慢.我可以在 R 中为此编写一个函数(不必通过假设上述对称结果来将时间减半): Papply
..
图书馆(nycflights13)图书馆(dplyr)sum.na % summarise(n=sum(is.na(x)))}sum.na(航班,arr_time) 当我运行上面的代码时,出现以下错误: ** eval(cols[[col]], .data, parent.frame()) 中的错误:找不到对象“arr_time"** 解决方案
..
我想提取每个建筑月份组合中 var1 最小值对应的 var2 值.这是我的(假)数据集: head(mydata)# 构建月份 var1 var2#1 A 1 -26.96333 376.9633#2 A 1 165.38759 317.3993#3 A 1 47.46345 271.0137#4 A 2 73.47784 294.8171#5 A 2 107.80130 371.7668#6
..
我有一个 df,其中 value 表示 drug 的状态: g1 = data.frame (药物 = c('a','a','a','d','d'),value = c('fda','trial','case','case','pre'))药价1个FDA2个试炼3个案例4 d 案例5天前 因此,对于药物,我想根据 value 的以下优先级顺序替换任何重复的 drug: fda >试用 >案例
..
我有一个学生成绩单分数的数据集,范围从 D- 到 A+.我想将它们重新编码为 1-12 的比例(即 D- = 1,D = 2 ... A = 11,A+ = 12).现在我正在起诉 plyr 中的 revalue 函数.我有几列要重新编码 - 是否有比在每列上运行 revalue 更短的方法? 一些数据: student
..
我想贬低 R data.frame 中的多列.使用 这个问题中的示例 set.seed(999)图书馆(plyr)图书馆(PLM)# 随机数据.frame数据
..
我在 R 中有一个按班级划分的学生每周津贴数据集,如下所示: Year ID Class Allowance2013 123 新生 1002013 234 新生 1102013 345 大二 1502013 456 大二 2002013 567 初级 2502014 678 少年1002014 789 初级 2302014 890 新生 1102014 891 新生 2502014 892 大二
..
我有一个嵌套的列表列表,我想将这些列表拼凑成一个带有 id 变量的数据框,以便我知道每个列表元素(和子列表元素)来自哪个列表元素. >str(gc_all)3人名单$ 1: num [1:102, 1:2] -74 -73.5 -73 -72.5 -71.9 .....- attr(*, "dimnames")=2 的列表.. ..$ : NULL.. ..$ : chr [1:2] "lon"
..
我对 R 很陌生,我主要使用它来使用 ggplot2 库来可视化统计数据.现在我在数据准备方面遇到了问题. 我需要编写一个函数,它将从数据框中删除一些(2、5 或 10)行,这些行在指定列中具有最高和最低值,并将它们放入另一个数据框中,并对每个组合执行此操作两个因素(就我而言:每天和服务器). 到目前为止,我已经完成了以下步骤(使用 esoph 示例数据集的 MWE). 我已
..
在以下矩阵数据集中: 1 2 3 4 51950 7 20 21 15 611951 2 10 6 26 571952 12 27 43 37 341953 14 16 40 47 941954 2 17 62 113 1011955 3 4 43 99 1481956 2 47 31 85 791957 17 5 38 216 2281958 11 20 15 76 681959 16 20
..
我想计算一个因子在数据框中出现的次数.例如,要计算下面代码中给定类型的事件数: 库(plyr)事件
..
我是 XML 数据库的新手. 我会尝试解释我的问题. 有一个数据库存储在来自墨西哥政府页面的 xml 文件中,我正在尝试下载以用于我的分析. 可以找到数据的页面是这个. https://datos.gob.mx/busca/dataset/estaciones-de-servicio-gasolineras-y-precios-comerciales-de-gasolina
..
我经常做的一种模式是在数值切割上刻面绘图.ggplot2中的facet_wrap不允许您从内部调用函数,因此您必须创建一个临时因子变量.使用dplyr的mutate可以.这样做的好处是您可以进行EDA并更改分位数,或者更改为设置切点等,然后在一行中查看更改.不利的一面是,这些方面仅通过因子级别进行标记;例如,您必须知道这是温度.这对自己来说还不错,但是如果我在两个这样的变量上执行facet_gri
..
我有几个R脚本文件,例如 f1.R , f2.R , f3.R . 我还有一个名为AddSignal(signal)的函数,该函数将信号向量添加到列表中.f1.R,f2.R等中的函数可以调用此AddSignal()函数. 现在我想要的是,在函数AddSignal()中,除了执行添加信号部分外,它还记录了哪个函数在哪个R文件中进行了调用.例如,我想知道f1.R添加信号sig1中的函数ff
..
已经有很多关于范围,环境和功能的讨论.参见例如
..
我使用以下代码对所有可能的列组合进行卡方分析. Dat
..
我有一个数据集,其中一些参与者有多行,并且我需要以每个参与者只有一行的方式聚合数据.数据集包含不同的变量类型(例如,因子,日期,年龄等).我编写了一个有效的代码,看起来像这样: example4%group_by(Patient_Id)%&%;%summarise(Groep = first(Groep),Ziekenhuis_Nr =
..
我正尝试将我的教育变量从18个等级的因子重新编码为7个等级的因子,范围从无资格-GCSE DG,GCSE A * -C- A等级-本科-研究生-其他. bes [[bes $ education]]%>%recode(“无资格" =“无资格",'GCSE D-G,CSE 2-5年级,O级D-E'='GCSE D-G',“青年培训证书,技术求职者" ="GCSE D-G",'文书和商业资格'='
..
例如,我有需要根据以前的历史记录创建变量的数据 创建的
..