r-factor相关内容

带ggplot2的发散堆叠条形图:图例中的系数排序问题

我正在尝试使用ggplot2在分散堆叠条形图上绘制Likert刻度数据。 我看到了很多解决方案,其中我找到的最好的解决方案是this faceted solution(虽然不需要刻面)。我特别欣赏的事实是,对于奇数刻度,中性值以0为中心。 我在这里以一种简化的方式复制了这个解决方案的想法(使用两个geom_col()和反向计数): # Data sample data ..
发布时间:2022-04-08 12:10:52 其他开发

将具有看不见的字符串值的新记录附加到数据帧时,看不见的因子水平会导致警告并导致 NA

我有一个数据框(14.5K 行 x 15 列),其中包含从 2001 年到 2007 年的结算数据. 我将新的 2008 年数据附加到其中:alltime 警告信息:在`[ 我的猜测是,有一些新患者的姓名不在之前的数据框中,因此它不知道给这些患者提供什么级别.在“推荐医生"列中出现类似的新名字. ..
发布时间:2022-01-22 11:18:27 其他开发

按 R 中的因子着色图

我正在制作两个变量的散点图,并希望通过因子变量为点着色.这是一些可重现的代码: data 这一切都很好,但我怎么知道什么因素被染上了什么颜色?? 解决方案 data 应该为你做.但我更喜欢 ggplot2 并建议在 R 中获得更好的图形. ..
发布时间:2021-12-21 09:13:58 其他开发

在 R 中的稀疏矩阵中直接创建虚拟变量集

假设您有一个包含大量列(1000 个因子,每个因子有 15 个级别)的数据框.您想创建一个虚拟变量数据集,但由于它太稀疏,您希望以稀疏矩阵格式保留虚拟变量. 我的数据集很大,步骤越少,对我来说越好.我知道如何做上述步骤;但我无法直接从初始数据集创建稀疏矩阵,即一步而不是两步.有什么想法吗? 编辑:一些评论要求进一步阐述,所以这里是: 其中 X 是我的原始数据集,包含 1000 列 ..
发布时间:2021-12-18 23:40:26 其他开发

使用 ggplot2 绘图:“错误:离散值提供给连续尺度"在分类 y 轴上

下面的绘图代码给出了错误:提供给连续刻度的离散值 这段代码有什么问题?它工作正常,直到我尝试改变比例所以错误就在那里......我试图从类似的问题中找出解决方案,但不能. 这是我数据的head: >dput(head(df))结构(列表(`10` = c(0, 0, 0, 0, 0, 0),`33.95` = c(0, 0,0, 0, 0, 0), `58.66` = c(0, 0, ..
发布时间:2021-12-15 13:09:40 其他开发

使用ggplot2时如何更改箱线图的顺序?

这个问题来自另一个一个.我无法在那里实施答案. 定义: df2 剧情: require(ggplot2)qplot(变量,值,数据=df2,geom=“boxplot")+geom_jitter(position=position_jitter(w=0.1,h=0.1)) 我希望以相反的顺序绘制箱线图(例如,一个在右在左,依此类推). 我尝试了各种使用levels、order ..
发布时间:2021-12-15 12:56:08 其他开发

一次将多个列强制为因子

我有一个如下所示的示例数据框: data 我想知道如何选择多个列并将它们一起转换为因子.我通常用 data$A = as.factor(data$A) 这样的方式来做.但是当数据框很大并且包含很多列时,这种方式将非常耗时.有谁知道更好的方法来做到这一点? 解决方案 选择一些列来强制因子: cols 使用 lapply() 来强制替换选中的列: data[cols] ..
发布时间:2021-12-01 21:18:56 其他开发

清理因子级别(折叠多个级别/标签)

清理包含需要折叠的多个级别的因子的最有效(即有效/适当)方法是什么?即如何将两个或多个因子水平合二为一. 这里有一个例子,“是"和“Y"两个级别应该折叠为“是",“否"和“N"折叠为“否": ## 给定:x 级别:是 否 # ..
发布时间:2021-12-01 20:47:55 其他开发

删除子集数据框中未使用的因子水平

我有一个包含 factor 的数据框.当我使用 subset 或其他索引函数创建此数据框的子集时,会创建一个新数据框.但是,factor 变量保留其所有原始级别,即使/如果它们不存在于新数据框中. 在进行分面绘图或使用依赖因子水平的函数时,这会导致问题. 从新数据框中的因子中删除级别的最简洁方法是什么? 这是一个例子: df 解决方案 你应该做的就是在子集化后再次将 fa ..
发布时间:2021-12-01 20:21:17 其他开发

R data.frame:按分组向量选定列的 rowSums

我有一个包含一系列数字列的数据框,两边被(不相关的)字符列包围.我想获得一个保留不相关列位置的新数据框,并通过某个分组向量将数字列彼此添加(或按组将其他一些行函数应用于数据框).示例: sample = data.frame(cha1 = c("A","B"),num1=1:2,num2=3:4,num3=11:12,num4=13:14,cha2=c("C","D"))>样本cha1 num1 ..
发布时间:2021-11-16 23:16:04 其他开发

R:为什么我没有得到类型或类的“因素"?将列转换为因子后?

我有以下设置. df 然后我尝试将其中一列转换为“因子".但是正如你在下面看到的,我没有得到任何“因子"类型或类.我做错了什么吗? df[, 1] 解决方案 抱歉,我觉得我原来的答案写得不好.为什么我一开始就把那个“因素矩阵"放进去?这是一个更好的尝试. 来自 ?apply: 如果‘X’不是数组而是具有非空值的类的对象‘dim’值(例如数据框),‘apply’试图强制它如果 ..
发布时间:2021-11-16 23:12:50 其他开发

为什么 as.factor 在 apply 内部使用时会返回一个字符?

我想使用 apply() 将变量转换为因子: a 结果: x1 x2 x3“性格"“性格"“性格" 我不明白为什么这会导致字符向量而不是因子向量. 解决方案 apply 将您的 data.frame 转换为字符矩阵.使用lapply: lapply(a, class)# $x1# [1] "数字"# $x2# [1] “因素"# $x3# [1] “因素" 在第二个命令中应 ..
发布时间:2021-11-16 22:59:40 其他开发

计算 r 中的唯一因子

我想知道在记录的每个出生日期分娩的独特水坝的数量.我的数据框类似于这个: dam 我使用了 aggregate(dam ~ bdate, data=mydf, FUN=length) 但它计算了在特定日期分娩的所有水坝 bdate 坝1 2009-10-01 52 2009-10-03 3 相反,我需要这样的东西: mydf2大坝1 2009-10-01 22 2009-10-03 2 ..
发布时间:2021-09-14 18:38:28 其他开发

dplyr 和 tidyr:将长格式转换为宽格式并排列列

我正在创建一个 shiny 应用,用户将在其中上传一个包含多个变量的 .csv 文件.使用dplyr,我将select 前四个变量,如下所示,并将它们从长格式转换. 数据 df 我使用下面的代码将长格式转换为宽格式 从长到宽 库(dplyr)图书馆(整理)df_wide %tidyr::spread(因子,功率) 结果 >df_wide客户评价 TK1 TK10 ..
发布时间:2021-09-07 19:32:24 其他开发

基于因子变量中的观察数进行子集化

如何根据因子变量水平的观察次数进行子集化?我有一个包含 1,000,000 行和近 3000 个级别的数据集,我想用较少的 200 个观察值对级别进行子集化. data 从上面的总结中可以看出,有些因子只有几个obs,我想去掉小于100的因子. 我尝试了以下方法,但没有用: for (n in unique((data$factor))) {m 解决方案 table, 子集,并根 ..
发布时间:2021-09-01 18:32:32 其他开发