categorical-data相关内容

如何计算分配给类别中个人的变量的平均值?

我有一个大数据集,可以这样表示: plot 1 2 3 3 3 4 4 5 5 5 5 6 7 fate S M S S M S S S M S S M M 其中地块是一个地点,而命运是“生存"或“死亡"(植物生存或死亡.)植物的地块编号与其下的命运相对应.因此,在地块5中有4种植物.其中3个幸存,1个死亡. 我想找出一种方法,使R计算所有这些情节在每个地块中幸存的个体的比例.事实 ..
发布时间:2020-09-15 03:23:24 其他开发

在Spark StringIndexer中处理NULL值

我有一个带有一些分类字符串列的数据集,我想用双精度类型来表示它们.我使用StringIndexer进行此转换,并且可以使用,但是当我在另一个具有NULL值的数据集中尝试使用它时,出现了java.lang.NullPointerException错误,并且不起作用. 为了更好地理解,这是我的代码: for(col ..
发布时间:2020-09-04 08:32:26 其他开发

如何使用Scala使用分类功能集运行Spark决策树?

我有一个具有相应categoricalFeaturesInfo的要素集:Map [Int,Int].但是,对于我的一生,我无法弄清楚应该如何使DecisionTree类正常工作.它不接受任何内容,但接受LabeledPoint作为数据.但是,LabeledPoint需要(double,vector),其中vector需要double. val LP = featureSet.map(x => ..

如何使用spark-ml处理分类功能?

如何使用 spark-ml 而不是 spark-mllib来处理分类数据? 认为文档不是很清楚,看来分类器例如RandomForestClassifier,LogisticRegression具有一个featuresCol参数(用于指定DataFrame中的要素列的名称)和一个labelCol参数(用于指定DataFrame中带有标签的类的列的名称) c5>. 很明显,我想在预测中使用 ..

R的群集程序包中的daisy()的Python等效项

我有一个包含分类(标称和序数)和数字属性的数据集.我想使用这些混合属性来计算我的观察结果中的(不相似度)矩阵.使用 daisy()函数在R中的群集程序包中,我可以轻松获得如下所示的相异矩阵: if(!require("cluster")) { install.packages("cluster"); require("cluster") } data(flower) as.matrix(d ..
发布时间:2020-07-31 04:43:22 Python

R:随机抽样各种类别的观测值

我以前从我的数据帧中随机抽取了一个邮政编码样本,然后意识到我并没有在所有更高级别的统计单位中进行抽样.我有大约一百万个邮政编码和7000个中间输出统计单位.我希望样本中每个统计单位的邮政编码数量大致相同. 如何从每个较高级别的统计单位中随机抽取35个邮政编码? 我以前使用以下代码随机采样250,000个邮政编码: total.sample ..
发布时间:2020-07-31 04:36:15 其他开发

GBM多项式分布,如何使用predict()获取预测类?

我正在使用R中gbm包中的多项式分布.当我使用predict函数时,会得到一系列值: 5.086328 -4.738346 -8.492738 -5.980720 -4.351102 -4.738044 -3.220387 -4.732654 但是我想获得每个班级发生的概率.我如何找回概率?谢谢. 解决方案 看看?predict.gbm,您将看到该函数有一个“类型"参数.试用pr ..
发布时间:2020-06-16 18:33:24 其他开发

R coxph()警告:Loglik在变量前收敛

我在使用coxph()时遇到了一些麻烦。 我有两个分类变量:“性别”和“可能的原因”,我想用作预测变量。性别只是典型的男性/女性,但可能的原因有5种选择。 我不知道警告消息是什么问题。为什么置信区间是从0到Inf,而p值这么高? 以下是代码和输出: > my_coxph ..
发布时间:2020-06-08 18:54:55 其他开发

在熊猫交叉表中,如何计算加权平均值?以及如何添加行和列的总计?

我有一个带有两个分类变量(在我的示例中为city和colour)的pandas数据框,一个带有百分比的列,一个带有权重的列. 我想做一个城市和颜色的交叉表,显示两者的每种组合的perc加权平均值. 我设法用下面的代码做到这一点,在这里我首先创建一个权重为x perc的列,然后创建一个权重为(weights x perc)之和的交叉表,再创建一个权重之和的交叉表,最后将其除以第一到第二. ..
发布时间:2020-05-24 04:20:58 Python

将Pandas DataFrame列映射到字典

我有一个数据框包含高基数(许多唯一值)的分类变量的情况.我想将该变量重新编码为一组值(最常见的值),然后将所有其他值替换为全部类别(“其他").举一个简单的例子: 以下是两个应保持不变的值: top_values = ['apple', 'orange'] 我根据以下数据帧列中的频率来建立它们: {'fruits': {0: 'apple', 1: 'apple', 2: ' ..
发布时间:2020-05-24 03:31:22 Python

在Pandas中将文本转换为int64类别

我在data['artist']中有一些歌手的名字,我想通过以下方式将其转换为分类列: x = data['artist'].astype('category').cat.codes x.dtype 返回: dtype('int32') 我得到的负数表明存在某种溢出情况.因此,我想改用np.int64,但找不到有关如何完成此操作的文档. x = data['artist ..
发布时间:2020-05-24 02:52:04 Python

熊猫cut():如何转换nans?还是将输出转换为非分类?

我在带有nans的数据框列上使用pandas.cut().我需要在pandas.cut()的输出上运行groupby,因此我需要将nans转换为其他内容(在输出中,而不是在输入数据中),否则groupby将愚蠢而令人发指地忽略它们. 我知道cut()现在可以输出分类数据,但是我找不到找到将分类添加到输出中的方法.我尝试过add_categories(),它运行时没有警告也没有错误,但是由于没 ..
发布时间:2020-05-24 02:41:44 Python