r-factor相关内容
我是R的新手,更习惯Stata。 我设法使用library(foreign)将数据库从Stata读取到Rdata.frame。 data=read.dta("mydata.dta", convert.dates = TRUE, convert.factors = TRUE, missing.type = FALSE, convert.unders
..
我正在尝试使用ggplot2在分散堆叠条形图上绘制Likert刻度数据。 我看到了很多解决方案,其中我找到的最好的解决方案是this faceted solution(虽然不需要刻面)。我特别欣赏的事实是,对于奇数刻度,中性值以0为中心。 我在这里以一种简化的方式复制了这个解决方案的想法(使用两个geom_col()和反向计数): # Data sample data
..
我有一个如下示例数据框: data
..
我有一个数据框(14.5K 行 x 15 列),其中包含从 2001 年到 2007 年的结算数据. 我将新的 2008 年数据附加到其中:alltime 警告信息:在`[ 我的猜测是,有一些新患者的姓名不在之前的数据框中,因此它不知道给这些患者提供什么级别.在“推荐医生"列中出现类似的新名字.
..
我正在制作两个变量的散点图,并希望通过因子变量为点着色.这是一些可重现的代码: data 这一切都很好,但我怎么知道什么因素被染上了什么颜色?? 解决方案 data 应该为你做.但我更喜欢 ggplot2 并建议在 R 中获得更好的图形.
..
似乎不可能在 R 中获得因子矩阵.这是真的吗?如果是,为什么?如果没有,我该怎么办? f
..
假设您有一个包含大量列(1000 个因子,每个因子有 15 个级别)的数据框.您想创建一个虚拟变量数据集,但由于它太稀疏,您希望以稀疏矩阵格式保留虚拟变量. 我的数据集很大,步骤越少,对我来说越好.我知道如何做上述步骤;但我无法直接从初始数据集创建稀疏矩阵,即一步而不是两步.有什么想法吗? 编辑:一些评论要求进一步阐述,所以这里是: 其中 X 是我的原始数据集,包含 1000 列
..
下面的绘图代码给出了错误:提供给连续刻度的离散值 这段代码有什么问题?它工作正常,直到我尝试改变比例所以错误就在那里......我试图从类似的问题中找出解决方案,但不能. 这是我数据的head: >dput(head(df))结构(列表(`10` = c(0, 0, 0, 0, 0, 0),`33.95` = c(0, 0,0, 0, 0, 0), `58.66` = c(0, 0,
..
这个问题来自另一个一个.我无法在那里实施答案. 定义: df2 剧情: require(ggplot2)qplot(变量,值,数据=df2,geom=“boxplot")+geom_jitter(position=position_jitter(w=0.1,h=0.1)) 我希望以相反的顺序绘制箱线图(例如,一个在右在左,依此类推). 我尝试了各种使用levels、order
..
我有一个如下所示的示例数据框: data 我想知道如何选择多个列并将它们一起转换为因子.我通常用 data$A = as.factor(data$A) 这样的方式来做.但是当数据框很大并且包含很多列时,这种方式将非常耗时.有谁知道更好的方法来做到这一点? 解决方案 选择一些列来强制因子: cols 使用 lapply() 来强制替换选中的列: data[cols]
..
清理包含需要折叠的多个级别的因子的最有效(即有效/适当)方法是什么?即如何将两个或多个因子水平合二为一. 这里有一个例子,“是"和“Y"两个级别应该折叠为“是",“否"和“N"折叠为“否": ## 给定:x 级别:是 否 #
..
我有一个包含 factor 的数据框.当我使用 subset 或其他索引函数创建此数据框的子集时,会创建一个新数据框.但是,factor 变量保留其所有原始级别,即使/如果它们不存在于新数据框中. 在进行分面绘图或使用依赖因子水平的函数时,这会导致问题. 从新数据框中的因子中删除级别的最简洁方法是什么? 这是一个例子: df 解决方案 你应该做的就是在子集化后再次将 fa
..
我不是 R 的新手用户,但以下内容最令人困惑. 我有一个数据框(尽管问题同样存在于矩阵中)的分类变量采用值 +1/-1,我想将其转换为因子. mat 垫[,1] [,2] [
..
我有一个包含一系列数字列的数据框,两边被(不相关的)字符列包围.我想获得一个保留不相关列位置的新数据框,并通过某个分组向量将数字列彼此添加(或按组将其他一些行函数应用于数据框).示例: sample = data.frame(cha1 = c("A","B"),num1=1:2,num2=3:4,num3=11:12,num4=13:14,cha2=c("C","D"))>样本cha1 num1
..
我有以下设置. df 然后我尝试将其中一列转换为“因子".但是正如你在下面看到的,我没有得到任何“因子"类型或类.我做错了什么吗? df[, 1] 解决方案 抱歉,我觉得我原来的答案写得不好.为什么我一开始就把那个“因素矩阵"放进去?这是一个更好的尝试. 来自 ?apply: 如果‘X’不是数组而是具有非空值的类的对象‘dim’值(例如数据框),‘apply’试图强制它如果
..
我想使用 apply() 将变量转换为因子: a 结果: x1 x2 x3“性格"“性格"“性格" 我不明白为什么这会导致字符向量而不是因子向量. 解决方案 apply 将您的 data.frame 转换为字符矩阵.使用lapply: lapply(a, class)# $x1# [1] "数字"# $x2# [1] “因素"# $x3# [1] “因素" 在第二个命令中应
..
我有一个包含 2001 年到 2007 年的帐单数据的数据框(14.5K 行 x 15 列). 我将新的 2008 数据附加到它:alltime 警告信息:在`[
..
我想知道在记录的每个出生日期分娩的独特水坝的数量.我的数据框类似于这个: dam 我使用了 aggregate(dam ~ bdate, data=mydf, FUN=length) 但它计算了在特定日期分娩的所有水坝 bdate 坝1 2009-10-01 52 2009-10-03 3 相反,我需要这样的东西: mydf2大坝1 2009-10-01 22 2009-10-03 2
..
我正在创建一个 shiny 应用,用户将在其中上传一个包含多个变量的 .csv 文件.使用dplyr,我将select 前四个变量,如下所示,并将它们从长格式转换. 数据 df 我使用下面的代码将长格式转换为宽格式 从长到宽 库(dplyr)图书馆(整理)df_wide %tidyr::spread(因子,功率) 结果 >df_wide客户评价 TK1 TK10
..
如何根据因子变量水平的观察次数进行子集化?我有一个包含 1,000,000 行和近 3000 个级别的数据集,我想用较少的 200 个观察值对级别进行子集化. data 从上面的总结中可以看出,有些因子只有几个obs,我想去掉小于100的因子. 我尝试了以下方法,但没有用: for (n in unique((data$factor))) {m 解决方案 table, 子集,并根
..