如何从Spark中RDD特定的分区中获取数据? [英] How to get data from a specific partition in Spark RDD?

查看:967
本文介绍了如何从Spark中RDD特定的分区中获取数据?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我想从Spark中RDD一个特定的分区访问数据。
作为跟随我可以得到一个分区的地址:

I want to access data from a particular partition in Spark RDD. I can get address of a partition as follow:

myRDD.partitions(0)

不过,我想从 myRDD.partitions(0)分区数据。
我试着官方org.apache.spark文档,但没有找到。

But I want to get data from myRDD.partitions(0) partition. I tried official org.apache.spark documentation but couldn't find.

先谢谢了。

推荐答案

您可以使用 mapPartitionsWithIndex 如下:

// Create (1, 1), (2, 2), ..., (100, 100) dataset
// and partition by key so we know what to expect
val rdd = sc.parallelize((1 to 100) map (i => (i, i)), 16)
  .partitionBy(new org.apache.spark.HashPartitioner(8))

val zeroth = rdd
  // If partition number is not zero ignore data
  .mapPartitionsWithIndex((idx, iter) => if (idx == 0) iter else Iterator())

// Check if we get expected results 8, 16, ..., 96
assert (zeroth.keys.map(_ % 8 == 0).reduce(_ & _) & zeroth.count == 12)

这篇关于如何从Spark中RDD特定的分区中获取数据?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆