categorical-data 第5页 - IT屋-程序员软件开发技术分享社区

XGBoost分类变量：实体模型与编码

使用 XGBoost 时，我们需要将分类变量转换为数字变量。性能上是否会有差异/评估方法之间的度量标准：将类别变量归类从以下类别编码您的类别变量例如（a，b，c）到（1,2,3） ALSO：是否会有任何理由不使用方法2，例如使用 labelencoder ？解决方案 xgboost 仅处理数字列。如果有功能 [a，b，b，c] 描述了分类变量（即 ..

发布时间：2020-09-30 00:28:03 python categorical-data xgboost Python

将多个二进制列转换为单个分类列

我有一个充满二进制变量的表，我想将其简化为分类变量。非常简单，我有一个像这样的数据框： data ..

发布时间：2020-09-30 00:26:53 r categorical-data dummy-data 其他开发

Matplotlib：如何在y轴上绘制分类数据？

假设我有以下代码，这些代码来自这里：性别= ['男'，'男'，'女'，'男'，'female'] 进口matplotlib.pyplot as plt 来自收藏品进口Counter c = Counter（gender） men = c ['male'] 女= c ['female'] bar_heights =（男人，女人） x =（1、2）图，斧= ..

发布时间：2020-09-30 00:26:49 python matplotlib plot categorical-data Python

从互斥虚拟变量创建分类变量

我的问题是关于先前回答的有关组合多个问题的详细说明虚拟变量合并为单个分类变量。在先前提出的问题中，分类变量是根据不互斥的伪变量创建的。就我而言，我的虚拟变量是互斥的，因为它们表示2X2主体间析因设计中的交叉实验条件（该主体中也有一个主体内组件，我不在此讨论），因此我认为互动完成了我需要做的。例如，我的数据可能如下所示： id conditionA conditionB co ..

发布时间：2020-09-30 00:26:45 r categorical-data dummy-variable 其他开发

如何从sklearn反转Label Encoder多列？

我想在多列上对LabelEncoder使用inverse_transform函数。当在数据帧上应用LabelEncoder时，这是我用于多个列的代码： class MultiColumnLabelEncoder： def __init __（self，columns = None）： self.columns =列＃用来编码 def fit（self，X，y = None ..

发布时间：2020-09-30 00:26:44 python scikit-learn categorical-data Python

不同数据集上相同值的一致因子水平

我不确定我是否完全了解因素如何起作用。因此，如果我错了，请以一种易于理解的方式纠正我。我一直认为，在进行回归分析时，R在幕后会将类别变量归类为整数，但这部分超出了我的思维范围。它将使用训练集中的分类值，并在构建模型之后，在测试数据集中检查相同的分类值。但是，我一直在想更多...并且需要澄清-特别是如果我正在这样做的时候 train = c（“ March”，“ Ap ..

发布时间：2020-09-30 00:25:41 r categorical-data factors 其他开发

如何使用ggplot（）手动将颜色设置为分类变量？

这是我的示例数据 table1 xaxis yaxis ae work 1 5 35736 Attending_Education Working 2 6 72286上岗教育工作 3 7 133316上岗教育工作 4 8 252520上岗教育工作 5 9 228964上岗教育工作 6 10 504676上岗教育工作这是我使用的代码。 p ..

发布时间：2020-09-30 00:25:39 r ggplot2 categorical-data 其他开发

如何确保分区在每个因子级别具有代表性观察结果？

我写了一个小函数将数据集划分为训练和测试集。但是，在处理因子变量时遇到了麻烦。在我的代码的模型验证阶段，如果模型建立在一个数据集上，而该数据集没有一个因子的每个层次的表示形式，那么我会报错。如何修复这个partition（）函数，以便在每个级别的因子变量中至少包含一个观察值？ test.df ..

发布时间：2020-09-30 00:25:27 r statistics partitioning factors categorical-data 其他开发

有关分类功能的OneHotEncoder问题

我想对我的数据集中的10个特征中的3个分类特征进行编码。我使用来自 ..

发布时间：2020-09-30 00:25:25 scikit-learn feature-extraction categorical-data 其他开发

Scikit-learn的LabelBinarizer与OneHotEncoder

两者之间有什么区别？似乎两者都创建了新列，其数量等于要素中唯一类别的数量。然后根据它们所在的类别将0和1分配给数据点。解决方案一个简单的示例，使用以下代码对数组进行编码下面显示了LabelEncoder，OneHotEncoder，LabelBinarizer。我看到OneHotEncoder首先需要整数编码形式的数据才能转换为各自的编码，这在LabelBinarizer的情况 ..

发布时间：2020-09-30 00:25:21 python encoding scikit-learn data-science categorical-data Python

结合低频计数

通过将低频计数组合到“其他”类别中来尝试折叠名义分类矢量：数据（数据帧的列）如下所示，并且包含所有50个州的信息：加利福尼亚州佛罗里达州阿拉巴马州 ... 表（名称）/长度（名称）正确返回频率，而我想做的是将低于给定阈值（例如f = 0.02）的任何东西都聚集在一起。正确的方法是什么？解决方案从听起来来看，类似以下的内容应该对您有用： ..

发布时间：2020-09-30 00:25:19 r categorical-data 其他开发

为因子变量制作频率直方图

我对R非常陌生，因此我对这个基本问题深表歉意。我花了一个小时搜索这个问题，但找不到解决方法。说我的数据集中有一些关于常见宠物类型的分类数据。我将其输入为R中的字符向量，其中包含不同类型的动物的名称。我是这样创建的：动物 ..

发布时间：2020-09-30 00:25:16 r histogram categorical-data 其他开发

在数据框中添加额外的因素

我有一个包含数字和有序因子列的数据框。我有很多NA值，因此没有分配任何级别。我将NA更改为“ No Answer”，但因子列的级别不包含该级别，因此这是我的开始方式，但我不知道如何以一种优雅的方式完成它： addNoAnswer = function（df）{ factorOrNot = sapply（df，is.factor） levelList = lapply（df [， fac ..

发布时间：2020-09-30 00:25:14 r dataframe categorical-data 其他开发

[R]中的一键编码|分类到虚拟变量

我需要创建一个新的数据框 nDF ，该数据框将所有分类变量进行二值化，同时将所有其他变量保留在数据框 DF 中。例如，我具有以下功能变量：RACE（4种类型）和AGE，以及一个称为CLASS的输出变量。 DF = 种族年龄（21岁以下）案例1 HISPANIC 0 A 案例2亚洲1 A 案例3 HISPANIC 1 D 案例4古巴人1 B 我想用五（5）个变量 ..

发布时间：2020-09-30 00:24:10 r categorical-data 其他开发

用ggplot2绘制：“错误：离散值提供给连续刻度”。在类别y轴上

下面的绘图代码给出错误：提供给连续刻度的离散值此代码有什么问题？在我尝试更改比例之前，它工作正常，因此存在错误...我试图从类似问题中找出解决方案，但无法解决。这是一个我的数据的头： > dput（head（df））结构（list（`10` = c（0，0，0，0，0，0），`33.95` = c（0，0， 0， 0，0，0），`58.66` = c（0，0，0，0，0， ..

发布时间：2020-09-30 00:24:06 r ggplot2 scale categorical-data r-factor 其他开发

R误差“和对因子没有意义”。

我有一个名为rRna_RDP_taxonomy_phylum的文件，其中包含以下数据： 364“ Firmicutes” 39.31 244“变形杆菌“ 26.35 218”放线菌“ 23.54 65”拟杆菌“ 7.02 22”融合细菌“ 2.38 6” Thermotogae“ 0.65 3 unclassified_细菌0.32 2 “ Spirochaet ..

发布时间：2020-09-30 00:24:04 r r-factor categorical-data 其他开发

如何在R中使用两个分类变量制作箱形图？

我想制作一个箱线图，以显示花在做行为（警报）上的时间如何受到两个变量（时段=早晨/下午和访问者级别=高/低）的影响。警报〜期间+可视级别 “警报”是一组由12个数字组成的集合，这些数字显示了醒来所花费的时间，而其他两个则作为重要的分类变量。我看过其他示例，但似乎没有一个适合此类问题。我知道我要查找的图形上有4个箱形图...据推测是 Perio ..

发布时间：2020-09-23 02:31:37 r boxplot categorical-data 其他开发

如何将自定义列顺序（按类别）应用于pandas boxplot？

编辑：该问题以熊猫〜0.13出现，并因在0.15-0.18版本之间的直接支持而过时（根据 @ Cireo's答案迟了）我可以得到一个箱线图 pandas DataFrame中的薪水列... train.boxplot（column ='Salary'，by ='Category '，sym =''） ...但是我不知道如何定义列“类别”上使用的索引顺序-根据另一个 ..

发布时间：2020-09-23 02:18:44 python pandas boxplot categorical-data Python

在R中绘制二进制列总和的图形，然后用一定比例的分类变量覆盖这些列

我正在尝试在R中绘制定性策略分析数据.我的数据库中每个策略都有一行，然后是二进制变量的列，如果满足该条件，则条件将被编码为"1".最后，每一行还包含一栏，说明该政策是强制性，自愿性还是部分性. 我想创建一个对各列求和的条形图，然后根据总和的百分比是强制性，自愿性还是部分性在条形中显示颜色. 理想的结果是创建一个如下所示的条形图，但根据强制性，自愿性或部分性政策的比例按颜色进行编码 ..

发布时间：2020-09-20 22:30:53 r charts binary categorical-data graphing 其他开发

R:将每个因子级别的R因子扩展为虚拟列

我在R中有一个很大的数据框，有两列.我试图从Code列(具有858个级别的factor类型)中提取出虚拟变量.问题是，当我尝试这样做时，R Studio总是崩溃. > str(d) 'data.frame': 649226 obs. of 2 variables: $ User: int 210 210 210 210 269 317 317 317 317 326 ... $ ..

发布时间：2020-09-20 19:34:34 r bigdata categorical-data dummy-data model.matrix 其他开发

categorical-data相关内容