Spark:如何在所有分区中平均分配我的记录 [英] Spark : how can evenly distribute my records in all partition

查看：162 发布时间：2020/9/4 3:40:01 apache-spark

本文介绍了Spark:如何在所有分区中平均分配我的记录的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我有一个具有30条记录的RDD(键/值对:键是时间戳，值是JPEG字节数组)
我正在运行30个执行程序.我想将此RDD重新分区为30个分区，以便每个分区都获得一个记录并分配给一个执行程序.

I have a RDD with 30 record (key/value pair : key is Time Stamp and Value is JPEG Byte Array)
and I am running 30 executors. I want to repartition this RDD in to 30 partitions so every partition gets one record and is assigned to one executor.

当我使用rdd.repartition(30)时，它会将rdd重新分区为30个分区，但有些分区会得到2条记录，有些分区会得到1条记录，有些则没有得到任何记录.

When I used rdd.repartition(30) it repartitions my rdd in 30 partitions but some partitions get 2 records, some get 1 record and some not getting any records.

Spark中有什么方法可以将记录均匀地分布到所有分区.

Is there any way in Spark I can evenly distribute my records to all partitions.

Spark:如何在所有分区中平均分配我的记录 [英] Spark : how can evenly distribute my records in all partition

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

Spark:如何在所有分区中平均分配我的记录 [英] Spark : how can evenly distribute my records in all partition

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭