categorical-data相关内容

如何将 Spark 中的分类变量转换为一组编码为 {0,1} 的列?

我正在尝试使用 Spark MLlib(使用 Scala)对包含分类变量的数据集执行逻辑回归 (LogisticRegressionWithLBFGS).我发现 Spark 无法处理这种变量. 在 R 中有一种简单的方法来处理这种问题:我在因子(类别)中转换变量,因此 R 创建一组编码为 {0,1} 指示变量的列. 如何使用 Spark 执行此操作? 解决方案 使用 Vecto ..

如何使用 spark-ml 处理分类特征?

我如何使用 spark-ml 而不是 spark-mllib 处理分类数据? 认为文档不是很清楚,似乎分类器例如RandomForestClassifier,LogisticRegression,有一个featuresCol参数,它指定DataFrame中特征列的名称,和一个 labelCol 参数,它指定 DataFrame 中标记类的列的名称. 显然我想在我的预测中使用多个特征,所 ..

如何使用 spark-ml 处理分类特征?

如何使用 spark-ml 而不是 spark-mllib 处理分类数据? 认为文档不是很清楚,似乎分类器例如RandomForestClassifier,LogisticRegression,有一个featuresCol参数,指定DataFrame中特征列的名称,和一个 labelCol 参数,它指定 DataFrame 中标记类的列的名称. 显然我想在我的预测中使用多个特征,所以我 ..

XGBoost/CatBoost 中具有大量类别的分类变量

我有一个关于随机森林的问题.想象一下,我有用户与项目交互的数据.项目的数量很大,大约 10 000.我的随机森林输出应该是用户可能与之交互的项目(如推荐系统).对于任何用户,我想使用一个功能来描述用户过去与之交互的项目.然而,将分类产品特征映射为单热编码似乎非常低效,因为用户与最多不超过几百个项目交互,有时只有 5 个. 当输入特征之一是具有约 10 000 个可能值的分类变量而输出是具有约 ..

多个分类变量之间的相关性(Pandas)

我有一个由 22 个分类变量(无序)组成的数据集.我想在一个漂亮的热图中可视化它们的相关性.由于 Pandas 内置函数 DataFrame.corr(method='pearson', min_periods=1) 只实现数值变量(Pearson、Kendall、Spearman)的相关系数,我必须自己聚合它来执行卡方或类似的东西,我不太确定在 中使用哪个函数来做它一个优雅的步骤(而不是遍历 ..
发布时间:2021-06-13 20:27:35 Python

将值从分类更改为标称值

我想按等级更改分类列中的所有值.可以使用列中已排序的唯一元素的索引来确定排名. 例如, >数据[1:5,1][1]"B2""C4""C5""C1""B5" 然后我希望这些列中的条目替换分类值 >数据[1:5,1][1]"1""4""5""3""2" 另一列: >数据[1:5,3][1]“已验证"“已验证来源"“未验证"“已验证来源"“已验证来源" 然后更新列: >数据[1 ..
发布时间:2021-04-21 19:47:26 其他开发

如何更改对比度以与所有水平的平均值进行比较,而不是与参考水平(R,lmer)进行比较?

我有一个数据集,每一行都是销售员对商店的一次访问,字段包括“插座"(商店ID),“设备"(销售员出售了多少电子设备)和“工作日"(营业员在商店中的星期几. 我想确定某个工作日是否比其他工作日好,所以不要将一周中的所有天都与例如星期一,我想将它们与一周中所有时间的平均值进行比较.我为此使用了lmerTest函数(具有估计的p值的lme4 :: lmer). 我尝试了以下代码: dat ..
发布时间:2021-04-21 19:47:23 其他开发

编码分类变量后如何跟踪列?

我想知道一旦对数据集进行数据预处理,如何跟踪数据集的原始列? 在下面的代码中, df_columns 会告诉我, df_array 中的 0 列是 A ,而列> 1 是 B ,依此类推... 但是,一旦我对分类列 B df_columns 进行编码时,不再对跟踪 df_dummies 有效 将pandas导入为pd将numpy导入为np动物= ['狗','猫','马']df = p ..

混合数值和分类数据的观测值之间成对距离计算的有效实现

我正在做一个数据科学项目,其中我必须计算数据集中每对观测值之间的欧几里得距离. 由于我要处理非常大的数据集,因此必须使用高效的成对距离计算(在内存使用和计算时间方面). 一种解决方案是使用Scipy中的 pdist 函数,该函数以一维数组的形式返回结果,而没有重复的实例. 但是,此函数无法处理分类变量.对于这些,我想在值相同的情况下将距离设置为0,在其他情况下将距离设置为1. ..
发布时间:2021-04-21 19:47:13 Python

sklearn中labelEncoder的工作

说我具有以下输入功能: hotel_id = [1、2、3、2、3] 这是具有数字值的分类功能.如果按原样将其提供给模型,则模型会将其视为连续变量,即2>1. 如果我应用 sklearn.labelEncoder(),那么我会得到: hotel_id = [0,1,2,1,2] 因此,此编码功能被认为是连续的还是分类的?如果将其视为连续的,那么labelEncoder()的用 ..

Plotly.js:无法显示完整的分类X轴

我必须绘制一个关于x轴的折线图.x轴类似于["00:00","00:05","00:10:,...," 23:55“],因此它不是数字的而是分类的.但是,我可能没有y轴上的完整数据列表.例如.只能从"00"至"00:00"到"09:00"之间的数据.数据必须从"00:00"开始. 我制作的图表只能显示具有y值的范围.(例如,"00" 00到"09:00"),但是我希望有一个具有完整x轴的图表 ..
发布时间:2021-04-21 19:47:01 其他开发

ggplot用于多个类别变量-计数数据

与往常一样,这个论坛是我最后一个希望找到解决我问题的方法.我正在研究一个数据集,其中一些参与者(儿童)接受了一项干预计划,以提高他们的社交技能/态度.在治疗之前,所有参与者都观看了一段视频片段,其中发生了“足球比赛",“篮球"和“斯诺克",并且演员是“好斗的",“自信的"或“中立的". 所有参与者回答演员的行为是“错误",“正确"还是“我不知道".干预后,他们看到了相同的视频,不得不说动作是 ..
发布时间:2021-04-21 19:46:58 其他开发

如何基于分类变量在R Plotly中创建叶绿素图?

我正在尝试创建一个美国的绿藻色图,该色度使用分类变量作为州色,但是我只能得到一个空白图.地物图与分类数据兼容吗?如果是这样,语法会如何变化? 对于我的数据,我只是简单地上载一个由状态组成的行表,并随机地包含“好",“差",“确定"之一. 我可以在下面的代码中进行哪些更改才能使其正常工作?我尝试了一种变通办法,该办法可以稍微改变状态的颜色,但是颜色栏会变色.(value4是我的“良好", ..
发布时间:2021-04-21 19:46:55 其他开发

从日期创建因子变量“周末"和“工作日"

我有以下数据框.这只是头部,日期跨越2个月.我的问题是如何在数据框中创建两个级别为“工作日"和“周末"的新因子变量,以指示给定的日期是工作日还是周末? 步骤日期间隔1 37.3826 2012-10-01 02 37.3826 2012-10-01 53 37.3826 2012-10-01 104 37.3826 2012-10-01 155 37.3826 2012-10-01 206 37 ..
发布时间:2021-04-21 19:46:49 其他开发