categorical-data 第2页 - IT屋-程序员软件开发技术分享社区

如何将 Spark 中的分类变量转换为一组编码为 {0,1} 的列?

我正在尝试使用 Spark MLlib(使用 Scala)对包含分类变量的数据集执行逻辑回归 (LogisticRegressionWithLBFGS).我发现 Spark 无法处理这种变量. 在 R 中有一种简单的方法来处理这种问题:我在因子(类别)中转换变量，因此 R 创建一组编码为 {0,1} 指示变量的列. 如何使用 Spark 执行此操作? 解决方案使用 Vecto ..

发布时间：2021-11-14 21:01:24 scala apache-spark bigdata apache-spark-mllib categorical-data 其他开发

如何使用 spark-ml 处理分类特征?

我如何使用 spark-ml 而不是 spark-mllib 处理分类数据? 认为文档不是很清楚，似乎分类器例如RandomForestClassifier，LogisticRegression，有一个featuresCol参数，它指定DataFrame中特征列的名称，和一个 labelCol 参数，它指定 DataFrame 中标记类的列的名称. 显然我想在我的预测中使用多个特征，所 ..

发布时间：2021-11-14 20:56:36 apache-spark categorical-data apache-spark-ml apache-spark-mllib 其他开发

如何使用 spark-ml 处理分类特征?

如何使用 spark-ml 而不是 spark-mllib 处理分类数据? 认为文档不是很清楚，似乎分类器例如RandomForestClassifier，LogisticRegression，有一个featuresCol参数，指定DataFrame中特征列的名称，和一个 labelCol 参数，它指定 DataFrame 中标记类的列的名称. 显然我想在我的预测中使用多个特征，所以我 ..

发布时间：2021-11-12 05:27:15 apache-spark categorical-data apache-spark-ml apache-spark-mllib 其他开发

包含一个或多个因子变量的多变量回归模型的 R 输出不会自动包含模型中整个因子变量显着性的似然比检验 (LRT).例如: fake = data.frame( x1=rnorm(100), x2=sample(LETTERS[1:4],大小=100，替换=真)，y=范数(100))头(假)x1 x2 y1 0.6152511 A 0.76824672 -0.8215727 A -0.5389245 ..

发布时间：2021-11-10 23:44:10 r regression anova categorical-data 其他开发

自动比较来自鼠标的 glm.mids 的嵌套模型

我有一个来自 R 的 mice 包的乘法估算模型，其中有很多因子变量.例如: 图书馆(小鼠)图书馆(Hmisc)# 将所有变量转化为因子假= nhanes假$age = as.factor(nhanes$age)假$bmi = cut2(nhanes$bmi, g=3)假$chl = cut2(nhanes$chl, g=3)头(假)年龄 bmi hyp chl1 1 NA2 2 ..

发布时间：2021-11-10 23:44:07 r anova categorical-data r-mice 其他开发

XGBoost/CatBoost 中具有大量类别的分类变量

我有一个关于随机森林的问题.想象一下，我有用户与项目交互的数据.项目的数量很大，大约 10 000.我的随机森林输出应该是用户可能与之交互的项目(如推荐系统).对于任何用户，我想使用一个功能来描述用户过去与之交互的项目.然而，将分类产品特征映射为单热编码似乎非常低效，因为用户与最多不超过几百个项目交互，有时只有 5 个. 当输入特征之一是具有约 10 000 个可能值的分类变量而输出是具有约 ..

发布时间：2021-07-02 20:07:21 machine-learning random-forest xgboost categorical-data catboost AI人工智能

多个分类变量之间的相关性(Pandas)

我有一个由 22 个分类变量(无序)组成的数据集.我想在一个漂亮的热图中可视化它们的相关性.由于 Pandas 内置函数 DataFrame.corr(method='pearson', min_periods=1) 只实现数值变量(Pearson、Kendall、Spearman)的相关系数，我必须自己聚合它来执行卡方或类似的东西，我不太确定在中使用哪个函数来做它一个优雅的步骤(而不是遍历 ..

发布时间：2021-06-13 20:27:35 python pandas statistics heatmap categorical-data Python

分类和序数特征数据在回归分析中的区别?

在进行回归分析时，我试图完全理解分类数据和有序数据之间的差异.现在，很明显: 分类特征和数据示例: 颜色:红色，白色，黑色为什么分类: red ..

发布时间：2021-05-29 20:59:46 machine-learning regression linear-regression categorical-data ordinals AI人工智能

将值从分类更改为标称值

我想按等级更改分类列中的所有值.可以使用列中已排序的唯一元素的索引来确定排名. 例如， >数据[1:5,1][1]"B2""C4""C5""C1""B5" 然后我希望这些列中的条目替换分类值 >数据[1:5,1][1]"1""4""5""3""2" 另一列: >数据[1:5,3][1]“已验证"“已验证来源"“未验证"“已验证来源"“已验证来源" 然后更新列: >数据[1 ..

发布时间：2021-04-21 19:47:26 r categorical-data columnname 其他开发

如何更改对比度以与所有水平的平均值进行比较，而不是与参考水平(R，lmer)进行比较?

我有一个数据集，每一行都是销售员对商店的一次访问，字段包括“插座"(商店ID)，“设备"(销售员出售了多少电子设备)和“工作日"(营业员在商店中的星期几. 我想确定某个工作日是否比其他工作日好，所以不要将一周中的所有天都与例如星期一，我想将它们与一周中所有时间的平均值进行比较.我为此使用了lmerTest函数(具有估计的p值的lme4 :: lmer). 我尝试了以下代码: dat ..

发布时间：2021-04-21 19:47:23 r categorical-data lme4 其他开发

编码分类变量后如何跟踪列?

我想知道一旦对数据集进行数据预处理，如何跟踪数据集的原始列? 在下面的代码中， df_columns 会告诉我， df_array 中的 0 列是 A ，而列> 1 是 B ，依此类推... 但是，一旦我对分类列 B df_columns 进行编码时，不再对跟踪 df_dummies 有效将pandas导入为pd将numpy导入为np动物= ['狗'，'猫'，'马']df = p ..

发布时间：2021-04-21 19:47:20 python machine-learning scikit-learn categorical-data one-hot-encoding AI人工智能

有条件地创建“其他"分类列中的类别

我有一个 DataFrame df ，其中包含一列， category 用以下代码创建: 将pandas导入为pd随机输入兰特从字符串导入ascii_uppercaserand.seed(1010)df = pd.DataFrame()值= list()对于我在范围(0,1000)中:category =(''.join(rand.choice(ascii_uppercase)对于范围(1)中的 ..

发布时间：2021-04-21 19:47:17 python python-2.7 pandas dataframe categorical-data Python

混合数值和分类数据的观测值之间成对距离计算的有效实现

我正在做一个数据科学项目，其中我必须计算数据集中每对观测值之间的欧几里得距离. 由于我要处理非常大的数据集，因此必须使用高效的成对距离计算(在内存使用和计算时间方面). 一种解决方案是使用Scipy中的 pdist 函数，该函数以一维数组的形式返回结果，而没有重复的实例. 但是，此函数无法处理分类变量.对于这些，我想在值相同的情况下将距离设置为0，在其他情况下将距离设置为1. ..

发布时间：2021-04-21 19:47:13 python numpy categorical-data numba pairwise-distance Python

sklearn中labelEncoder的工作

说我具有以下输入功能: hotel_id = [1、2、3、2、3] 这是具有数字值的分类功能.如果按原样将其提供给模型，则模型会将其视为连续变量，即2>1. 如果我应用 sklearn.labelEncoder()，那么我会得到: hotel_id = [0，1，2，1，2] 因此，此编码功能被认为是连续的还是分类的?如果将其视为连续的，那么labelEncoder()的用 ..

发布时间：2021-04-21 19:47:07 python machine-learning scikit-learn categorical-data AI人工智能

使用cut为时间变量创建24个类别

在这里导入数据，对其进行一些处理(这可能不是问题/解决方案所在的地方) 前两行设置我的剪切参数. lab_var_num ..

发布时间：2021-04-21 19:47:04 r dataframe cut categorical-data 其他开发

Plotly.js:无法显示完整的分类X轴

我必须绘制一个关于x轴的折线图.x轴类似于["00:00"，"00:05"，"00:10:，...，" 23:55“]，因此它不是数字的而是分类的.但是，我可能没有y轴上的完整数据列表.例如.只能从"00"至"00:00"到"09:00"之间的数据.数据必须从"00:00"开始. 我制作的图表只能显示具有y值的范围.(例如，"00" 00到"09:00")，但是我希望有一个具有完整x轴的图表 ..

发布时间：2021-04-21 19:47:01 categorical-data 其他开发

ggplot用于多个类别变量-计数数据

与往常一样，这个论坛是我最后一个希望找到解决我问题的方法.我正在研究一个数据集，其中一些参与者(儿童)接受了一项干预计划，以提高他们的社交技能/态度.在治疗之前，所有参与者都观看了一段视频片段，其中发生了“足球比赛"，“篮球"和“斯诺克"，并且演员是“好斗的"，“自信的"或“中立的". 所有参与者回答演员的行为是“错误"，“正确"还是“我不知道".干预后，他们看到了相同的视频，不得不说动作是 ..

发布时间：2021-04-21 19:46:58 r ggplot2 dplyr categorical-data 其他开发

如何基于分类变量在R Plotly中创建叶绿素图?

我正在尝试创建一个美国的绿藻色图，该色度使用分类变量作为州色，但是我只能得到一个空白图.地物图与分类数据兼容吗?如果是这样，语法会如何变化? 对于我的数据，我只是简单地上载一个由状态组成的行表，并随机地包含“好"，“差"，“确定"之一. 我可以在下面的代码中进行哪些更改才能使其正常工作?我尝试了一种变通办法，该办法可以稍微改变状态的颜色，但是颜色栏会变色.(value4是我的“良好"， ..

发布时间：2021-04-21 19:46:55 r maps plotly categorical-data 其他开发

将分类代码转换为分类值

我有一个数据框: ga_deviceCategory_codes ga_channelgrouping_codes ga_sourceMedium_codes1.0 6.0 9.01.0 6.0 9.0 我已使用:从类别值转换为类别代码: data ['ga_deviceCategory_codes'] =数据['ga_deviceCategory'].astype('category ..

发布时间：2021-04-21 19:46:52 python pandas dictionary dataframe categorical-data Python

从日期创建因子变量“周末"和“工作日"

我有以下数据框.这只是头部，日期跨越2个月.我的问题是如何在数据框中创建两个级别为“工作日"和“周末"的新因子变量，以指示给定的日期是工作日还是周末? 步骤日期间隔1 37.3826 2012-10-01 02 37.3826 2012-10-01 53 37.3826 2012-10-01 104 37.3826 2012-10-01 155 37.3826 2012-10-01 206 37 ..

发布时间：2021-04-21 19:46:49 r categorical-data 其他开发

categorical-data相关内容

如何将 Spark 中的分类变量转换为一组编码为 {0,1} 的列?

如何使用 spark-ml 处理分类特征?

如何使用 spark-ml 处理分类特征?

自动使用 LRT 评估整个因子变量的显着性

自动比较来自鼠标的 glm.mids 的嵌套模型

XGBoost/CatBoost 中具有大量类别的分类变量

多个分类变量之间的相关性(Pandas)

分类和序数特征数据在回归分析中的区别?

将值从分类更改为标称值

如何更改对比度以与所有水平的平均值进行比较，而不是与参考水平(R，lmer)进行比较?

编码分类变量后如何跟踪列?

有条件地创建“其他"分类列中的类别

混合数值和分类数据的观测值之间成对距离计算的有效实现

sklearn中labelEncoder的工作

使用cut为时间变量创建24个类别

Plotly.js:无法显示完整的分类X轴

ggplot用于多个类别变量-计数数据

如何基于分类变量在R Plotly中创建叶绿素图?

将分类代码转换为分类值

从日期创建因子变量“周末"和“工作日"