categorical-data - IT屋-程序员软件开发技术分享社区

R：创建函数以随机替换数据框中的数据

我正在使用R编程语言。假设我有以下数据("；my_data"；)： set.seed(123) num_var_1 ..

发布时间：2022-05-07 14:32:57 r function random data-manipulation categorical-data 其他开发

在 pandas 中按组分配模式(处理NaN的组模式)

我有一个分类列&WALLSMATERIAL_MODE&QOOT；其中包含NAN，我希望通过以下组[‘NAME_RECOVICATION_TYPE’，‘AGE_GROUP’]将其归因于NAN： NAME_EDUCATION_TYPE AGE_GROUP WALLSMATERIAL_MODE 20 Secondary / secondary special ..

发布时间：2022-04-14 17:35:20 pandas pandas-groupby nan categorical-data imputation Python

如何检查连续变量和分类变量之间的相关性？

我有一个包含类别变量(二进制)和连续变量的数据集。我正在尝试应用线性回归模型来预测一个连续变量。有人能告诉我如何检查分类变量和连续目标变量之间的相关性吗？当前编码： import pandas as pd df_hosp = pd.read_csv('C:UsersLAPPY-2DesktopLengthOfStay.csv') data = df_hosp[['lengthofs ..

发布时间：2022-03-24 21:18:03 python linear-regression correlation categorical-data Python

在Pandas中使用GROUPBY和Mean()保留带有类别变量的列

有没有办法在groupby和mean()之后保留类别变量？例如，给定数据帧df： ratio Metadata_A Metadata_B treatment 0 54265.937500 B10 1 AB_cmpd_01 11 107364.750000 B ..

发布时间：2022-02-26 20:29:29 python pandas pandas-groupby categorical-data Python

如何基于分类变量在 R Plotly 中创建叶绿素图?

我正在尝试创建美国的叶绿素地图，该地图使用分类变量作为州颜色，但我只得到一张空白地图.绘图地图是否与分类数据兼容?如果是这样，语法如何变化? 对于我的数据，我只是上传包含状态和随机“好"、“坏"、“好"之一的行表. 我可以在下面的代码中进行哪些更改以使其正常工作?我尝试了一种解决方法，可以稍微改变状态的颜色，但颜色条会变得不稳定.(value4 是我的分类变量“Good"、“Bad"、 ..

发布时间：2022-01-21 15:36:55 r maps plotly categorical-data 其他开发

如何将 pandas 数据框的单列转换为字符串类型?在下面的住房数据 df 中，我需要将邮政编码转换为字符串，以便在运行线性回归时，邮政编码被视为分类而不是数字.谢谢！ df = pd.DataFrame({'zipcode': {17384: 98125, 2680: 98107, 722: 98005, 18754: 98109, 14554: 98155}, '浴室': {17384: 1 ..

发布时间：2022-01-12 23:56:02 pandas dataframe type-conversion categorical-data Python

“自动"使用 PROC GLM 计算参数估计的线性组合

背景:我有一个分类变量，X，有四个级别，我适合作为单独的虚拟变量.因此，共有三个虚拟变量表示 x=1、x=2、x=3(x=0 是基线). 问题/问题:我希望能够计算这些虚拟变量的线性组合(即使用 SAS 作为计算器)的值.例如，2*B1 + 2*B2 + B3. 在 Stata 中，这可以使用 lincom 命令完成，该命令使用存储的 beta 估计值来计算参数的线性组合. 在诸 ..

发布时间：2022-01-08 17:28:37 sas categorical-data 其他开发

如何确保分区具有来自因子每个级别的代表性观察?

我编写了一个小函数来将我的数据集划分为训练集和测试集.但是，我在处理因子变量时遇到了麻烦.在我的代码的模型验证阶段，如果模型建立在没有来自每个因子级别的表示的数据集上，我会收到错误消息.如何修复此 partition() 函数以包含来自因子变量每个级别的至少一个观察结果? test.df EDIT - 使用“caret"包和 createDataPartition() 的新函数: part ..

发布时间：2022-01-07 23:13:39 r statistics partitioning factors categorical-data 其他开发

模型摘要中有序和无序因子与数值预测变量的解释

我已经安装了一个模型，其中: Y ~ A + A^2 + B + 混合效果(C) Y 是连续的A 是连续的B 实际上指的是 DAY，目前看起来像这样: 级别:1 我可以轻松更改数据类型，但我不确定将 B 视为数字、因子或有序因子是否更合适.AND 当被视为数字或有序因子时，我不太确定如何解释输出. 当作为有序因子处理时，summary(my.model) 输出如下: RE ..

发布时间：2022-01-07 23:03:08 r statistics modeling categorical-data 其他开发

在 Python 中将分类数据转换为数值数据

我有一个数据集.它的一列 - “关键字" - 包含分类数据.我尝试使用的机器学习算法仅采用数字数据.我想将“关键字"列转换为数值 - 我该怎么做?使用自然语言处理?一袋话? 我尝试了以下方法，但我得到了 ValueError: Expected 2D array, got 1D array instead. from sklearn.feature_extraction.text impo ..

发布时间：2022-01-02 18:01:41 python machine-learning encoding nlp categorical-data AI人工智能

如何将 Pandas 中的变量指定为有序/分类?

我正在尝试使用 scikit-learn 在数据集上运行一些机器学习算法.我的数据集有一些类似于类别的特征.就像一个特征是 A，它有值 1,2,3 指定某物的质量.1:上等，2:二等，3:三等.所以它是一个序数变量. 同样，我重新编码了一个变量 City，具有三个值 ('London', Zurich', 'New York' 到 1,2,3 但对值没有特定的偏好.所以现在这是一个名义分类变 ..

发布时间：2021-12-25 14:54:32 python pandas scikit-learn categorical-data Python

OneHotEncoder 的分类特征问题

我想对数据集中的 10 个特征中的 3 个分类特征进行编码.我使用 sklearn.preprocessingpreprocessing/a> 这样做: from sklearn 导入预处理cat_features = ['color', 'director_name', 'actor_2_name']enc = preprocessing.OneHotEncoder(categorical_f ..

发布时间：2021-12-25 14:26:29 scikit-learn feature-extraction categorical-data 其他开发

Scikit-learn 的 LabelBinarizer 与 OneHotEncoder

两者有什么区别?似乎两者都创建了新列，它们的数量等于特征中唯一类别的数量.然后他们根据数据点所在的类别将 0 和 1 分配给数据点. 解决方案一个使用 LabelEncoder、OneHotEncoder、LabelBinarizer 对数组进行编码的简单示例如下所示. 我看到 OneHotEncoder 首先需要整数编码形式的数据才能转换为其各自的编码，而在 LabelBinar ..

发布时间：2021-12-25 14:19:50 python encoding scikit-learn data-science categorical-data Python

使用 ggplot2 绘图:“错误:离散值提供给连续尺度"在分类 y 轴上

下面的绘图代码给出了错误:提供给连续刻度的离散值这段代码有什么问题?它工作正常，直到我尝试改变比例所以错误就在那里......我试图从类似的问题中找出解决方案，但不能. 这是我数据的head: >dput(head(df))结构(列表(`10` = c(0, 0, 0, 0, 0, 0)，`33.95` = c(0, 0，0, 0, 0, 0), `58.66` = c(0, 0, ..

发布时间：2021-12-15 13:09:40 r ggplot2 scale categorical-data r-factor 其他开发

获取 ValueError: y 使用 scikit learn 的 LabelEncoder 时包含新标签

我有一个类似的系列: df['ID'] = ['ABC123', 'IDF345', ...] 我正在使用 scikit 的 LabelEncoder 将其转换为数值以输入 RandomForestClassifier. 在培训期间，我做如下: le_id = LabelEncoder()df['ID'] = le_id.fit_transform(df.ID) 但是，现在为了测试/ ..

发布时间：2021-12-14 10:00:11 python machine-learning encoding scikit-learn categorical-data AI人工智能

sklearn DecisionTreeClassifier 真的可以处理分类数据吗?

在使用 DecisionTreeClassifier 时，我使用 graphviz 对其进行了可视化，不得不说，令我惊讶的是，它似乎需要分类数据并将其用作连续数据. 我所有的特征都是分类的，例如你可以看到下面的树(请注意第一个特征，X[0]，有 6 个可能的值 0、1、2、3、4、5:从我发现 here 该类使用了一个树类二叉树，所以是sklearn的一个限制. 有谁知道我缺少一种明 ..

发布时间：2021-12-14 09:58:23 python machine-learning scikit-learn decision-tree categorical-data AI人工智能

对熊猫中的一列字符串进行分解

正如问题所说，我有一个数据框 df_original，它非常大，但看起来像: ID Count Column 2 Column 3 Column 4RowX 1 234. 255. 是的.452RowY 1 123. 135. 没有.342RowW 1 234. 235. 是的.645RowJ 1 123. 115. 没有.342RowA 1 234. 285. 是的.233RowR 1 12 ..

发布时间：2021-12-07 09:43:17 python pandas dataframe categorical-data Python

Pandas:将类别转换为数字

假设我有一个包含以下国家/地区的数据框: cc |温度美国 |37.0CA |12.0美国 |35.0AU |20.0 我知道有一个 pd.get_dummies 函数可以将国家/地区转换为“one-hot encodings".但是，我希望将它们转换为索引，这样我就会得到 cc_index = [1,2,1,3] . 我假设有比使用 get_dummies 和 numpy where ..

发布时间：2021-12-03 08:53:01 python pandas series categorical-data binning Python

如何强制 R 在回归中使用指定的因子水平作为参考?

如果我在回归中使用二元解释变量，如何告诉 R 使用某个级别作为参考? 它只是默认使用某个级别. lm(x ~ y + as.factor(b)) 与 b {0, 1, 2, 3, 4}.假设我想使用 3 而不是 R 使用的零. 解决方案参见 relevel() 函数.下面是一个例子: set.seed(123)x 现在使用 relevel() 函数更改 DF 中的因子 b ..

发布时间：2021-12-01 21:13:45 r regression linear-regression categorical-data dummy-variable 其他开发

如何使用 Scala 运行具有分类特征集的 Spark 决策树?

我有一个具有相应 categoricalFeaturesInfo: Map[Int,Int] 的特征集.但是，对于我的生活，我无法弄清楚应该如何让 DecisionTree 类工作.它不会接受任何东西，而是接受 LabeledPoint 作为数据.但是，LabeledPoint 需要 (double, vector) ，其中向量需要双精度. val LP = featureSet.map(x = ..

发布时间：2021-11-14 21:05:02 scala apache-spark tree apache-spark-mllib categorical-data 其他开发

categorical-data相关内容