categorical-data相关内容

XGBoost分类变量:实体模型与编码

使用 XGBoost 时,我们需要将分类变量转换为数字变量。 性能上是否会有差异/评估方法之间的度量标准: 将类别变量归类 从以下类别编码您的类别变量例如(a,b,c)到(1,2,3) ALSO: 是否会有任何理由不使用方法2,例如使用 labelencoder ? 解决方案 xgboost 仅处理数字列。 如果有功能 [a,b,b,c] 描述了分类变量(即 ..
发布时间:2020-09-30 00:28:03 Python

从互斥虚拟变量创建分类变量

我的问题是关于先前回答的有关组合多个问题的详细说明虚拟变量合并为单个分类变量。 在先前提出的问题中,分类变量是根据不互斥的伪变量创建的。就我而言,我的虚拟变量是互斥的,因为它们表示2X2主体间析因设计中的交叉实验条件(该主体中也有一个主体内组件,我不在此讨论),因此我认为互动完成了我需要做的。 例如,我的数据可能如下所示: id conditionA conditionB co ..
发布时间:2020-09-30 00:26:45 其他开发

不同数据集上相同值的一致因子水平

我不确定我是否完全了解因素如何起作用。因此,如果我错了,请以一种易于理解的方式纠正我。 我一直认为,在进行回归分析时,R在幕后会将类别变量归类为整数,但这部分超出了我的思维范围。 它将使用训练集中的分类值,并在构建模型之后,在测试数据集中检查相同的分类值。 但是,我一直在想更多...并且需要澄清-特别是如果我正在这样做的时候 train = c(“ March”,“ Ap ..
发布时间:2020-09-30 00:25:41 其他开发

如何确保分区在每个因子级别具有代表性观察结果?

我写了一个小函数将数据集划分为训练和测试集。但是,在处理因子变量时遇到了麻烦。在我的代码的模型验证阶段,如果模型建立在一个数据集上,而该数据集没有一个因子的每个层次的表示形式,那么我会报错。如何修复这个partition()函数,以便在每个级别的因子变量中至少包含一个观察值? test.df ..
发布时间:2020-09-30 00:25:27 其他开发

Scikit-learn的LabelBinarizer与OneHotEncoder

两者之间有什么区别?似乎两者都创建了新列,其数量等于要素中唯一类别的数量。然后根据它们所在的类别将0和1分配给数据点。 解决方案 一个简单的示例,使用以下代码对数组进行编码下面显示了LabelEncoder,OneHotEncoder,LabelBinarizer。 我看到OneHotEncoder首先需要整数编码形式的数据才能转换为各自的编码,这在LabelBinarizer的情况 ..
发布时间:2020-09-30 00:25:21 Python

结合低频计数

通过将低频计数组合到“其他”类别中来尝试折叠名义分类矢量: 数据(数据帧的列)如下所示,并且包含所有50个州的信息: 加利福尼亚州 佛罗里达州 阿拉巴马州 ... 表(名称)/长度(名称)正确返回频率,而我想做的是将低于给定阈值(例如f = 0.02)的任何东西都聚集在一起。正确的方法是什么? 解决方案 从听起来来看,类似以下的内容应该对您有用: ..
发布时间:2020-09-30 00:25:19 其他开发

为因子变量制作频率直方图

我对R非常陌生,因此我对这个基本问题深表歉意。我花了一个小时搜索这个问题,但找不到解决方法。 说我的数据集中有一些关于常见宠物类型的分类数据。我将其输入为R中的字符向量,其中包含不同类型的动物的名称。我是这样创建的: 动物 ..
发布时间:2020-09-30 00:25:16 其他开发

在数据框中添加额外的因素

我有一个包含数字和有序因子列的数据框。我有很多NA值,因此没有分配任何级别。我将NA更改为“ No Answer”,但因子列的级别不包含该级别,因此这是我的开始方式,但我不知道如何以一种优雅的方式完成它: addNoAnswer = function(df){ factorOrNot = sapply(df,is.factor) levelList = lapply(df [, fac ..
发布时间:2020-09-30 00:25:14 其他开发

[R]中的一键编码|分类到虚拟变量

我需要创建一个新的数据框 nDF ,该数据框将所有分类变量进行二值化,同时将所有其他变量保留在数据框 DF 中。例如,我具有以下功能变量:RACE(4种类型)和AGE,以及一个称为CLASS的输出变量。 DF = 种族年龄(21岁以下) 案例1 HISPANIC 0 A 案例2亚洲1 A 案例3 HISPANIC 1 D 案例4古巴人1 B 我想用五(5)个变量 ..
发布时间:2020-09-30 00:24:10 其他开发

用ggplot2绘制:“错误:离散值提供给连续刻度”。在类别y轴上

下面的绘图代码给出错误:提供给连续刻度的离散值 此代码有什么问题?在我尝试更改比例之前,它工作正常,因此存在错误...我试图从类似问题中找出解决方案,但无法解决。 这是一个我的数据的头: > dput(head(df)) 结构(list(`10` = c(0,0,0,0,0,0),`33.95` = c(0,0, 0, 0,0,0),`58.66` = c(0,0,0,0,0, ..
发布时间:2020-09-30 00:24:06 其他开发

R误差“和对因子没有意义”。

我有一个名为rRna_RDP_taxonomy_phylum的文件,其中包含以下数据: 364“ Firmicutes” 39.31 244“变形杆菌“ 26.35 218”放线菌“ 23.54 65”拟杆菌“ 7.02 22”融合细菌“ 2.38 6” Thermotogae“ 0.65 3 unclassified_细菌0.32 2 “ Spirochaet ..
发布时间:2020-09-30 00:24:04 其他开发

如何在R中使用两个分类变量制作箱形图?

我想制作一个箱线图,以显示花在做行为(警报)上的时间如何受到两个变量(时段=早晨/下午和访问者级别=高/低)的影响。 警报〜期间+可视级别 “警报”是一组由12个数字组成的集合,这些数字显示了醒来所花费的时间,而其他两个则作为重要的分类变量。我看过其他示例,但似乎没有一个适合此类问题。 我知道我要查找的图形上有4个箱形图...据推测是 Perio ..
发布时间:2020-09-23 02:31:37 其他开发

如何将自定义列顺序(按类别)应用于pandas boxplot?

编辑:该问题以熊猫〜0.13出现,并因在0.15-0.18版本之间的直接支持而过时(根据 @ Cireo's答案迟了) 我可以得到一个箱线图 pandas DataFrame中的薪水列... train.boxplot(column ='Salary',by ='Category ',sym ='') ...但是我不知道如何定义列“类别”上使用的索引顺序-根据另一个 ..
发布时间:2020-09-23 02:18:44 Python

在R中绘制二进制列总和的图形,然后用一定比例的分类变量覆盖这些列

我正在尝试在R中绘制定性策略分析数据.我的数据库中每个策略都有一行,然后是二进制变量的列,如果满足该条件,则条件将被编码为"1".最后,每一行还包含一栏,说明该政策是强制性,自愿性还是部分性. 我想创建一个对各列求和的条形图,然后根据总和的百分比是强制性,自愿性还是部分性在条形中显示颜色. 理想的结果是创建一个如下所示的条形图,但根据强制性,自愿性或部分性政策的比例按颜色进行编码 ..
发布时间:2020-09-20 22:30:53 其他开发