Spark中的多输出分类 [英] Multioutput Classification in Spark
本文介绍了Spark中的多输出分类的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我们是否可以像在skLearning中执行MultiOutputClassifier()那样,在Pyspark中预测多个目标变量?
我有一个包含多个目标变量的数据集
Problem Complexity Skill1 Skill2 Skill3 Skill4 Skill5
0 Pbl1 Low 7 0 2 9 3
1 Pbl2 Medium 0 9 2 0 5
2 Pbl3 Medium 3 1 8 7 1
3 Pbl4 Medium 5 2 6 1 8
4 Pbl5 High 4 7 3 9 0
这里我的自变量是Problem
和Complexity
,我必须为特定问题预测Skills
,我的目标变量是[Skill1, Skill2, Skill3, Skill4]
在skLearning中,我们可以直接提到‘X’变量和‘Y’变量,并通过一次传递获得多个列的预测。
但在Pyspark中,我们将所有自变量设置为Features
,将目标变量设置为Labels
列,并对这些数据应用机器学习。
如何在PySpark中对上述表结构进行多目标预测?
推荐答案
如果您的数据不大,可以使用df.toPandas()
将星火数据帧转换为 pandas 数据帧,以执行multioutput回归和分类任务。
这篇关于Spark中的多输出分类的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文