categorical-data相关内容
我正在尝试使用 Spark MLlib(使用 Scala)对包含分类变量的数据集执行逻辑回归 (LogisticRegressionWithLBFGS).我发现 Spark 无法处理这种变量. 在 R 中有一种简单的方法来处理这种问题:我在因子(类别)中转换变量,因此 R 创建一组编码为 {0,1} 指示变量的列. 如何使用 Spark 执行此操作? 解决方案 使用 Vecto
..
我如何使用 spark-ml 而不是 spark-mllib 处理分类数据? 认为文档不是很清楚,似乎分类器例如RandomForestClassifier,LogisticRegression,有一个featuresCol参数,它指定DataFrame中特征列的名称,和一个 labelCol 参数,它指定 DataFrame 中标记类的列的名称. 显然我想在我的预测中使用多个特征,所
..
如何使用 spark-ml 而不是 spark-mllib 处理分类数据? 认为文档不是很清楚,似乎分类器例如RandomForestClassifier,LogisticRegression,有一个featuresCol参数,指定DataFrame中特征列的名称,和一个 labelCol 参数,它指定 DataFrame 中标记类的列的名称. 显然我想在我的预测中使用多个特征,所以我
..
包含一个或多个因子变量的多变量回归模型的 R 输出不会自动包含模型中整个因子变量显着性的似然比检验 (LRT).例如: fake = data.frame( x1=rnorm(100), x2=sample(LETTERS[1:4],大小=100,替换=真),y=范数(100))头(假)x1 x2 y1 0.6152511 A 0.76824672 -0.8215727 A -0.5389245
..
我有一个来自 R 的 mice 包的乘法估算模型,其中有很多因子变量.例如: 图书馆(小鼠)图书馆(Hmisc)# 将所有变量转化为因子假= nhanes假$age = as.factor(nhanes$age)假$bmi = cut2(nhanes$bmi, g=3)假$chl = cut2(nhanes$chl, g=3)头(假)年龄 bmi hyp chl1 1 NA2 2
..
我有一个关于随机森林的问题.想象一下,我有用户与项目交互的数据.项目的数量很大,大约 10 000.我的随机森林输出应该是用户可能与之交互的项目(如推荐系统).对于任何用户,我想使用一个功能来描述用户过去与之交互的项目.然而,将分类产品特征映射为单热编码似乎非常低效,因为用户与最多不超过几百个项目交互,有时只有 5 个. 当输入特征之一是具有约 10 000 个可能值的分类变量而输出是具有约
..
我有一个由 22 个分类变量(无序)组成的数据集.我想在一个漂亮的热图中可视化它们的相关性.由于 Pandas 内置函数 DataFrame.corr(method='pearson', min_periods=1) 只实现数值变量(Pearson、Kendall、Spearman)的相关系数,我必须自己聚合它来执行卡方或类似的东西,我不太确定在 中使用哪个函数来做它一个优雅的步骤(而不是遍历
..
在进行回归分析时,我试图完全理解分类数据和有序数据之间的差异.现在,很明显: 分类特征和数据示例: 颜色:红色,白色,黑色 为什么分类: red
..
我想按等级更改分类列中的所有值.可以使用列中已排序的唯一元素的索引来确定排名. 例如, >数据[1:5,1][1]"B2""C4""C5""C1""B5" 然后我希望这些列中的条目替换分类值 >数据[1:5,1][1]"1""4""5""3""2" 另一列: >数据[1:5,3][1]“已验证"“已验证来源"“未验证"“已验证来源"“已验证来源" 然后更新列: >数据[1
..
我有一个数据集,每一行都是销售员对商店的一次访问,字段包括“插座"(商店ID),“设备"(销售员出售了多少电子设备)和“工作日"(营业员在商店中的星期几. 我想确定某个工作日是否比其他工作日好,所以不要将一周中的所有天都与例如星期一,我想将它们与一周中所有时间的平均值进行比较.我为此使用了lmerTest函数(具有估计的p值的lme4 :: lmer). 我尝试了以下代码: dat
..
我想知道一旦对数据集进行数据预处理,如何跟踪数据集的原始列? 在下面的代码中, df_columns 会告诉我, df_array 中的 0 列是 A ,而列> 1 是 B ,依此类推... 但是,一旦我对分类列 B df_columns 进行编码时,不再对跟踪 df_dummies 有效 将pandas导入为pd将numpy导入为np动物= ['狗','猫','马']df = p
..
我有一个 DataFrame df ,其中包含一列, category 用以下代码创建: 将pandas导入为pd随机输入兰特从字符串导入ascii_uppercaserand.seed(1010)df = pd.DataFrame()值= list()对于我在范围(0,1000)中:category =(''.join(rand.choice(ascii_uppercase)对于范围(1)中的
..
我正在做一个数据科学项目,其中我必须计算数据集中每对观测值之间的欧几里得距离. 由于我要处理非常大的数据集,因此必须使用高效的成对距离计算(在内存使用和计算时间方面). 一种解决方案是使用Scipy中的 pdist 函数,该函数以一维数组的形式返回结果,而没有重复的实例. 但是,此函数无法处理分类变量.对于这些,我想在值相同的情况下将距离设置为0,在其他情况下将距离设置为1.
..
说我具有以下输入功能: hotel_id = [1、2、3、2、3] 这是具有数字值的分类功能.如果按原样将其提供给模型,则模型会将其视为连续变量,即2>1. 如果我应用 sklearn.labelEncoder(),那么我会得到: hotel_id = [0,1,2,1,2] 因此,此编码功能被认为是连续的还是分类的?如果将其视为连续的,那么labelEncoder()的用
..
在这里导入数据,对其进行一些处理(这可能不是问题/解决方案所在的地方) 前两行设置我的剪切参数. lab_var_num
..
我必须绘制一个关于x轴的折线图.x轴类似于["00:00","00:05","00:10:,...," 23:55“],因此它不是数字的而是分类的.但是,我可能没有y轴上的完整数据列表.例如.只能从"00"至"00:00"到"09:00"之间的数据.数据必须从"00:00"开始. 我制作的图表只能显示具有y值的范围.(例如,"00" 00到"09:00"),但是我希望有一个具有完整x轴的图表
..
与往常一样,这个论坛是我最后一个希望找到解决我问题的方法.我正在研究一个数据集,其中一些参与者(儿童)接受了一项干预计划,以提高他们的社交技能/态度.在治疗之前,所有参与者都观看了一段视频片段,其中发生了“足球比赛",“篮球"和“斯诺克",并且演员是“好斗的",“自信的"或“中立的". 所有参与者回答演员的行为是“错误",“正确"还是“我不知道".干预后,他们看到了相同的视频,不得不说动作是
..
我正在尝试创建一个美国的绿藻色图,该色度使用分类变量作为州色,但是我只能得到一个空白图.地物图与分类数据兼容吗?如果是这样,语法会如何变化? 对于我的数据,我只是简单地上载一个由状态组成的行表,并随机地包含“好",“差",“确定"之一. 我可以在下面的代码中进行哪些更改才能使其正常工作?我尝试了一种变通办法,该办法可以稍微改变状态的颜色,但是颜色栏会变色.(value4是我的“良好",
..
我有一个数据框: ga_deviceCategory_codes ga_channelgrouping_codes ga_sourceMedium_codes1.0 6.0 9.01.0 6.0 9.0 我已使用:从类别值转换为类别代码: data ['ga_deviceCategory_codes'] =数据['ga_deviceCategory'].astype('category
..
我有以下数据框.这只是头部,日期跨越2个月.我的问题是如何在数据框中创建两个级别为“工作日"和“周末"的新因子变量,以指示给定的日期是工作日还是周末? 步骤日期间隔1 37.3826 2012-10-01 02 37.3826 2012-10-01 53 37.3826 2012-10-01 104 37.3826 2012-10-01 155 37.3826 2012-10-01 206 37
..