为什么Spark crossJoin对于一个很小的数据帧要花这么长时间? [英] Why does Spark crossJoin take so long for a tiny dataframe?

查看：182 发布时间：2021/4/8 20:14:43 apache-spark pyspark apache-spark-sql cross-join

本文介绍了为什么Spark crossJoin对于一个很小的数据帧要花这么长时间?的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我正在尝试在每个都有5行的两个数据帧上执行以下crossJoin，但是Spark在我的机器上产生了40000个任务，完成任务花了30秒.知道为什么会这样吗?

I'm trying to do the following crossJoin on two dataframes with 5 rows each, but Spark spawns 40000 tasks on my machine and it took 30 seconds to achieve the task. Any idea why that is happening?

df = spark.createDataFrame([['1','1'],['2','2'],['3','3'],['4','4'],['5','5']]).toDF('a','b')
df = df.repartition(1)

df.select('a').distinct().crossJoin(df.select('b').distinct()).count()

为什么Spark crossJoin对于一个很小的数据帧要花这么长时间? [英] Why does Spark crossJoin take so long for a tiny dataframe?

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

为什么Spark crossJoin对于一个很小的数据帧要花这么长时间? [英] Why does Spark crossJoin take so long for a tiny dataframe?

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭