Spark中的多输出分类 [英] Multioutput Classification in Spark

查看:0
本文介绍了Spark中的多输出分类的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我们是否可以像在skLearning中执行MultiOutputClassifier()那样,在Pyspark中预测多个目标变量?

我有一个包含多个目标变量的数据集

    Problem     Complexity  Skill1  Skill2  Skill3  Skill4  Skill5
0   Pbl1        Low            7      0       2       9      3
1   Pbl2        Medium         0      9       2       0      5
2   Pbl3        Medium         3      1       8       7      1
3   Pbl4        Medium         5      2       6       1      8
4   Pbl5        High           4      7       3       9      0

这里我的自变量是ProblemComplexity,我必须为特定问题预测Skills,我的目标变量是[Skill1, Skill2, Skill3, Skill4]

在skLearning中,我们可以直接提到‘X’变量和‘Y’变量,并通过一次传递获得多个列的预测。 但在Pyspark中,我们将所有自变量设置为Features,将目标变量设置为Labels列,并对这些数据应用机器学习。

如何在PySpark中对上述表结构进行多目标预测?

推荐答案

如果您的数据不大,可以使用df.toPandas()星火数据帧转换为 pandas 数据帧,以执行multioutput回归和分类任务。

这篇关于Spark中的多输出分类的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆