categorical-data相关内容

如何检查连续变量和分类变量之间的相关性?

我有一个包含类别变量(二进制)和连续变量的数据集。我正在尝试应用线性回归模型来预测一个连续变量。有人能告诉我如何检查分类变量和连续目标变量之间的相关性吗? 当前编码: import pandas as pd df_hosp = pd.read_csv('C:UsersLAPPY-2DesktopLengthOfStay.csv') data = df_hosp[['lengthofs ..
发布时间:2022-03-24 21:18:03 Python

如何基于分类变量在 R Plotly 中创建叶绿素图?

我正在尝试创建美国的叶绿素地图,该地图使用分类变量作为州颜色,但我只得到一张空白地图.绘图地图是否与分类数据兼容?如果是这样,语法如何变化? 对于我的数据,我只是上传包含状态和随机“好"、“坏"、“好"之一的行表. 我可以在下面的代码中进行哪些更改以使其正常工作?我尝试了一种解决方法,可以稍微改变状态的颜色,但颜色条会变得不稳定.(value4 是我的分类变量“Good"、“Bad"、 ..
发布时间:2022-01-21 15:36:55 其他开发

“自动"使用 PROC GLM 计算参数估计的线性组合

背景:我有一个分类变量,X,有四个级别,我适合作为单独的虚拟变量.因此,共有三个虚拟变量表示 x=1、x=2、x=3(x=0 是基线). 问题/问题:我希望能够计算这些虚拟变量的线性组合(即使用 SAS 作为计算器)的值.例如,2*B1 + 2*B2 + B3. 在 Stata 中,这可以使用 lincom 命令完成,该命令使用存储的 beta 估计值来计算参数的线性组合. 在诸 ..
发布时间:2022-01-08 17:28:37 其他开发

如何确保分区具有来自因子每个级别的代表性观察?

我编写了一个小函数来将我的数据集划分为训练集和测试集.但是,我在处理因子变量时遇到了麻烦.在我的代码的模型验证阶段,如果模型建立在没有来自每个因子级别的表示的数据集上,我会收到错误消息.如何修复此 partition() 函数以包含来自因子变量每个级别的至少一个观察结果? test.df EDIT - 使用“caret"包和 createDataPartition() 的新函数: part ..
发布时间:2022-01-07 23:13:39 其他开发

模型摘要中有序和无序因子与数值预测变量的解释

我已经安装了一个模型,其中: Y ~ A + A^2 + B + 混合效果(C) Y 是连续的A 是连续的B 实际上指的是 DAY,目前看起来像这样: 级别:1 我可以轻松更改数据类型,但我不确定将 B 视为数字、因子或有序因子是否更合适.AND 当被视为数字或有序因子时,我不太确定如何解释输出. 当作为有序因子处理时,summary(my.model) 输出如下: RE ..
发布时间:2022-01-07 23:03:08 其他开发

在 Python 中将分类数据转换为数值数据

我有一个数据集.它的一列 - “关键字" - 包含分类数据.我尝试使用的机器学习算法仅采用数字数据.我想将“关键字"列转换为数值 - 我该怎么做?使用自然语言处理?一袋话? 我尝试了以下方法,但我得到了 ValueError: Expected 2D array, got 1D array instead. from sklearn.feature_extraction.text impo ..
发布时间:2022-01-02 18:01:41 AI人工智能

如何将 Pandas 中的变量指定为有序/分类?

我正在尝试使用 scikit-learn 在数据集上运行一些机器学习算法.我的数据集有一些类似于类别的特征.就像一个特征是 A,它有值 1,2,3 指定某物的质量.1:上等,2:二等,3:三等.所以它是一个序数变量. 同样,我重新编码了一个变量 City,具有三个值 ('London', Zurich', 'New York' 到 1,2,3 但对值没有特定的偏好.所以现在这是一个名义分类变 ..
发布时间:2021-12-25 14:54:32 Python

Scikit-learn 的 LabelBinarizer 与 OneHotEncoder

两者有什么区别?似乎两者都创建了新列,它们的数量等于特征中唯一类别的数量.然后他们根据数据点所在的类别将 0 和 1 分配给数据点. 解决方案 一个使用 LabelEncoder、OneHotEncoder、LabelBinarizer 对数组进行编码的简单示例如下所示. 我看到 OneHotEncoder 首先需要整数编码形式的数据才能转换为其各自的编码,而在 LabelBinar ..
发布时间:2021-12-25 14:19:50 Python

使用 ggplot2 绘图:“错误:离散值提供给连续尺度"在分类 y 轴上

下面的绘图代码给出了错误:提供给连续刻度的离散值 这段代码有什么问题?它工作正常,直到我尝试改变比例所以错误就在那里......我试图从类似的问题中找出解决方案,但不能. 这是我数据的head: >dput(head(df))结构(列表(`10` = c(0, 0, 0, 0, 0, 0),`33.95` = c(0, 0,0, 0, 0, 0), `58.66` = c(0, 0, ..
发布时间:2021-12-15 13:09:40 其他开发

sklearn DecisionTreeClassifier 真的可以处理分类数据吗?

在使用 DecisionTreeClassifier 时,我 使用 graphviz 对其进行了可视化,不得不说,令我惊讶的是,它似乎需要分类数据并将其用作连续数据. 我所有的特征都是分类的,例如你可以看到下面的树(请注意第一个特征,X[0],有 6 个可能的值 0、1、2、3、4、5:从我发现 here 该类使用了一个树类二叉树,所以是sklearn的一个限制. 有谁知道我缺少一种明 ..

Pandas:将类别转换为数字

假设我有一个包含以下国家/地区的数据框: cc |温度美国 |37.0CA |12.0美国 |35.0AU |20.0 我知道有一个 pd.get_dummies 函数可以将国家/地区转换为“one-hot encodings".但是,我希望将它们转换为索引,这样我就会得到 cc_index = [1,2,1,3] . 我假设有比使用 get_dummies 和 numpy where ..
发布时间:2021-12-03 08:53:01 Python

如何强制 R 在回归中使用指定的因子水平作为参考?

如果我在回归中使用二元解释变量,如何告诉 R 使用某个级别作为参考? 它只是默认使用某个级别. lm(x ~ y + as.factor(b)) 与 b {0, 1, 2, 3, 4}.假设我想使用 3 而不是 R 使用的零. 解决方案 参见 relevel() 函数.下面是一个例子: set.seed(123)x 现在使用 relevel() 函数更改 DF 中的因子 b ..

如何使用 Scala 运行具有分类特征集的 Spark 决策树?

我有一个具有相应 categoricalFeaturesInfo: Map[Int,Int] 的特征集.但是,对于我的生活,我无法弄清楚应该如何让 DecisionTree 类工作.它不会接受任何东西,而是接受 LabeledPoint 作为数据.但是,LabeledPoint 需要 (double, vector) ,其中向量需要双精度. val LP = featureSet.map(x = ..