categorical-data相关内容

在直方图/条形图中绘制两个分类数组?

我有一个分类数组,种族和一个是/否数组,我想以某种方式创建一个堆叠的条形图/直方图,每个种族都有自己的条形图,每个条形图分成两种不同的颜色-一个回答“是"的受访者,其他回答“否"的受访者.有没有办法在MATLAB中相对简单地做到这一点?至少有一种方法可以创建一张表格来显示每个种族,有多少人说是,有多少人说不? 为澄清起见,我的数据集中有1250行,每一行代表一个人的回答.我将其拆分,因此有一 ..
发布时间:2020-05-06 14:12:15 其他开发

如何为R中的分类变量创建偏相关图?

我正在使用r包randomForest,并已成功制作了随机森林模型和重要性图.我正在处理一个二分法的反应和几个分类的预测变量. 但是,我无法弄清楚如何为我的分类变量制作部分依赖图.我尝试使用randomForest命令partialPLot.但是我收到以下错误: > partialPlot(rf.5, rf.train.1, religion) Error in is.finite(x ..

在gbm多项式dist中,如何使用预测来获得分类输出?

我的响应是一个分类变量(某些字母),因此我在建立模型时使用了distribution ='multinomial',现在我想预测响应并根据这些字母而不是概率矩阵来获取输出 但是在predict(model, newdata, type='response')中,它给出的概率与type='link'的结果相同. 有没有办法获得分类输出? BST = gbm(V1~.,data=tr ..
发布时间:2020-05-04 09:30:26 AI人工智能

使用scikit-learn对连续和分类变量(整数类型)进行特征预处理

主要目标如下: 1)将StandardScaler应用于连续变量 2)将LabelEncoder和OnehotEncoder应用于分类变量 需要对连续变量进行缩放,但同时,几个分类变量也是整数类型.应用StandardScaler会导致不希望的效果. 另一方面,StandardScaler会缩放基于整数的分类变量,这也不是我们想要的. 由于连续变量和分类变量混合在单个 ..

分类特征相关

我的数据中有一些连续的分类特征.对类别特征进行热编码以使其与其他连续生物一起与标签相关联,这是一个好主意还是绝对坏主意? 解决方案 有一种无需对类别变量进行一次热编码就可以计算相关系数的方法. Cramers V统计量是一种用于计算分类变量的相关性的方法.可以如下计算.以下链接很有帮助. 使用熊猫,计算Cramér系数矩阵对于其他连续变量值,可以使用pandas的cut进行分类. i ..

sklearn DecisionTreeClassifier可以真正使用分类数据吗?

在使用DecisionTreeClassifier时,我使用graphviz对其进行可视化,令我惊讶的是,它似乎需要分类数据并将其用作连续数据. 我所有的特征都是分类的,例如,您可以看到下面的树(请注意,第一个特征X [0]具有6个可能的值0、1、2、3、4、5: 此处,该类使用的是一个树类二叉树,所以这是sklearn的局限性. 有人知道我无法使用分类树吗? (我知道这对完成任务不是 ..

r中逻辑回归的分类变量

如何在R中的二进制逻辑回归中实现分类变量?我想测试专业领域(学生,工人,老师,个体经营者)对产品购买可能性的影响. 在我的示例中y是一个二进制变量(1用于购买产品,0用于不购买). -x1:是性别(0位男性,1位女性) -x2:年龄(20至80岁之间) -x3:是类别变量(1 =学生,2 =工人,3 =老师,4 =个体经营) set.seed(123) y ..
发布时间:2020-05-04 03:17:52 其他开发

从lm提取公式,包括分类变量(R)

我有一个lm对象,想获取使用系数提取的公式.该对象包括诸如月之类的分类变量,以及与这些分类变量和数字变量的交互. 另一个用户帮助了一些代码,该代码适用于除分类变量以外的所有变量,但是当我添加分类变量(例如此处的d)时,它崩溃了,并给出错误"parse(text = x)Error::1 :785:意外的数字常量": a = c(1, 2, 5, 13, 40, 29, 82, 22, ..
发布时间:2020-05-02 11:14:11 其他开发

如何在R中使用公式排除主要效应但保留相互作用

我不想要主效果,因为它与共线的因子固定效果更好,所以拥有这些NA很烦人. 在此示例中: lm(y ~ x * z) 我想要x(数字)和z(因子)的交互作用,而不是z的主要作用. 解决方案 简介 ?formula的R文档说: "*"运算符表示因子交叉:"a * b"解释为"a + b + a:b 因此,听起来很简单,只需执行以下操作之一即可删除主要效果: ..
发布时间:2020-04-30 12:30:06 其他开发

如何检查python中连续变量和分类变量之间的相关性?

我有一个包含分类变量(二进制)和连续变量的数据集.我正在尝试应用线性回归模型来预测连续变量.有人可以让我知道如何检查分类变量和连续目标变量之间的相关性. 当前代码: import pandas as pd df_hosp = pd.read_csv('C:\Users\LAPPY-2\Desktop\LengthOfStay.csv') data = df_hosp[['length ..
发布时间:2020-04-30 12:25:38 Python

您如何(以及为什么)使用对比?

在什么情况下您会在分析中形成对比?它是怎么做的?它有什么用? 我检查了?contrasts和?C-都导致"S中统计模型的第2章",这对我来说并不容易. 解决方案 当您将线性模型与因子(即分类变量)拟合为解释变量时,需要对比.对比说明了如何将因子的水平编码为一系列数字虚拟变量以拟合模型. 以下是使用的各种不同对比的一些注意事项: http://www.unc.edu/course ..
发布时间:2020-04-30 12:20:37 其他开发