categorical-data相关内容
我正在使用R编程语言。假设我有以下数据(";my_data";): set.seed(123) num_var_1
..
我有一个分类列&WALLSMATERIAL_MODE&QOOT;其中包含NAN,我希望通过以下组[‘NAME_RECOVICATION_TYPE’,‘AGE_GROUP’]将其归因于NAN: NAME_EDUCATION_TYPE AGE_GROUP WALLSMATERIAL_MODE 20 Secondary / secondary special
..
我有一个包含类别变量(二进制)和连续变量的数据集。我正在尝试应用线性回归模型来预测一个连续变量。有人能告诉我如何检查分类变量和连续目标变量之间的相关性吗? 当前编码: import pandas as pd df_hosp = pd.read_csv('C:UsersLAPPY-2DesktopLengthOfStay.csv') data = df_hosp[['lengthofs
..
有没有办法在groupby和mean()之后保留类别变量? 例如,给定数据帧df: ratio Metadata_A Metadata_B treatment 0 54265.937500 B10 1 AB_cmpd_01 11 107364.750000 B
..
我正在尝试创建美国的叶绿素地图,该地图使用分类变量作为州颜色,但我只得到一张空白地图.绘图地图是否与分类数据兼容?如果是这样,语法如何变化? 对于我的数据,我只是上传包含状态和随机“好"、“坏"、“好"之一的行表. 我可以在下面的代码中进行哪些更改以使其正常工作?我尝试了一种解决方法,可以稍微改变状态的颜色,但颜色条会变得不稳定.(value4 是我的分类变量“Good"、“Bad"、
..
如何将 pandas 数据框的单列转换为字符串类型?在下面的住房数据 df 中,我需要将邮政编码转换为字符串,以便在运行线性回归时,邮政编码被视为分类而不是数字.谢谢! df = pd.DataFrame({'zipcode': {17384: 98125, 2680: 98107, 722: 98005, 18754: 98109, 14554: 98155}, '浴室': {17384: 1
..
背景:我有一个分类变量,X,有四个级别,我适合作为单独的虚拟变量.因此,共有三个虚拟变量表示 x=1、x=2、x=3(x=0 是基线). 问题/问题:我希望能够计算这些虚拟变量的线性组合(即使用 SAS 作为计算器)的值.例如,2*B1 + 2*B2 + B3. 在 Stata 中,这可以使用 lincom 命令完成,该命令使用存储的 beta 估计值来计算参数的线性组合. 在诸
..
我编写了一个小函数来将我的数据集划分为训练集和测试集.但是,我在处理因子变量时遇到了麻烦.在我的代码的模型验证阶段,如果模型建立在没有来自每个因子级别的表示的数据集上,我会收到错误消息.如何修复此 partition() 函数以包含来自因子变量每个级别的至少一个观察结果? test.df EDIT - 使用“caret"包和 createDataPartition() 的新函数: part
..
我已经安装了一个模型,其中: Y ~ A + A^2 + B + 混合效果(C) Y 是连续的A 是连续的B 实际上指的是 DAY,目前看起来像这样: 级别:1 我可以轻松更改数据类型,但我不确定将 B 视为数字、因子或有序因子是否更合适.AND 当被视为数字或有序因子时,我不太确定如何解释输出. 当作为有序因子处理时,summary(my.model) 输出如下: RE
..
我有一个数据集.它的一列 - “关键字" - 包含分类数据.我尝试使用的机器学习算法仅采用数字数据.我想将“关键字"列转换为数值 - 我该怎么做?使用自然语言处理?一袋话? 我尝试了以下方法,但我得到了 ValueError: Expected 2D array, got 1D array instead. from sklearn.feature_extraction.text impo
..
我正在尝试使用 scikit-learn 在数据集上运行一些机器学习算法.我的数据集有一些类似于类别的特征.就像一个特征是 A,它有值 1,2,3 指定某物的质量.1:上等,2:二等,3:三等.所以它是一个序数变量. 同样,我重新编码了一个变量 City,具有三个值 ('London', Zurich', 'New York' 到 1,2,3 但对值没有特定的偏好.所以现在这是一个名义分类变
..
我想对数据集中的 10 个特征中的 3 个分类特征进行编码.我使用 sklearn.preprocessingpreprocessing/a> 这样做: from sklearn 导入预处理cat_features = ['color', 'director_name', 'actor_2_name']enc = preprocessing.OneHotEncoder(categorical_f
..
两者有什么区别?似乎两者都创建了新列,它们的数量等于特征中唯一类别的数量.然后他们根据数据点所在的类别将 0 和 1 分配给数据点. 解决方案 一个使用 LabelEncoder、OneHotEncoder、LabelBinarizer 对数组进行编码的简单示例如下所示. 我看到 OneHotEncoder 首先需要整数编码形式的数据才能转换为其各自的编码,而在 LabelBinar
..
下面的绘图代码给出了错误:提供给连续刻度的离散值 这段代码有什么问题?它工作正常,直到我尝试改变比例所以错误就在那里......我试图从类似的问题中找出解决方案,但不能. 这是我数据的head: >dput(head(df))结构(列表(`10` = c(0, 0, 0, 0, 0, 0),`33.95` = c(0, 0,0, 0, 0, 0), `58.66` = c(0, 0,
..
我有一个类似的系列: df['ID'] = ['ABC123', 'IDF345', ...] 我正在使用 scikit 的 LabelEncoder 将其转换为数值以输入 RandomForestClassifier. 在培训期间,我做如下: le_id = LabelEncoder()df['ID'] = le_id.fit_transform(df.ID) 但是,现在为了测试/
..
在使用 DecisionTreeClassifier 时,我 使用 graphviz 对其进行了可视化,不得不说,令我惊讶的是,它似乎需要分类数据并将其用作连续数据. 我所有的特征都是分类的,例如你可以看到下面的树(请注意第一个特征,X[0],有 6 个可能的值 0、1、2、3、4、5:从我发现 here 该类使用了一个树类二叉树,所以是sklearn的一个限制. 有谁知道我缺少一种明
..
正如问题所说,我有一个数据框 df_original,它非常大,但看起来像: ID Count Column 2 Column 3 Column 4RowX 1 234. 255. 是的.452RowY 1 123. 135. 没有.342RowW 1 234. 235. 是的.645RowJ 1 123. 115. 没有.342RowA 1 234. 285. 是的.233RowR 1 12
..
假设我有一个包含以下国家/地区的数据框: cc |温度美国 |37.0CA |12.0美国 |35.0AU |20.0 我知道有一个 pd.get_dummies 函数可以将国家/地区转换为“one-hot encodings".但是,我希望将它们转换为索引,这样我就会得到 cc_index = [1,2,1,3] . 我假设有比使用 get_dummies 和 numpy where
..
如果我在回归中使用二元解释变量,如何告诉 R 使用某个级别作为参考? 它只是默认使用某个级别. lm(x ~ y + as.factor(b)) 与 b {0, 1, 2, 3, 4}.假设我想使用 3 而不是 R 使用的零. 解决方案 参见 relevel() 函数.下面是一个例子: set.seed(123)x 现在使用 relevel() 函数更改 DF 中的因子 b
..
我有一个具有相应 categoricalFeaturesInfo: Map[Int,Int] 的特征集.但是,对于我的生活,我无法弄清楚应该如何让 DecisionTree 类工作.它不会接受任何东西,而是接受 LabeledPoint 作为数据.但是,LabeledPoint 需要 (double, vector) ,其中向量需要双精度. val LP = featureSet.map(x =
..