如何从Spark中RDD特定的分区中获取数据? [英] How to get data from a specific partition in Spark RDD?
本文介绍了如何从Spark中RDD特定的分区中获取数据?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我想从Spark中RDD一个特定的分区访问数据。
作为跟随我可以得到一个分区的地址:
I want to access data from a particular partition in Spark RDD. I can get address of a partition as follow:
myRDD.partitions(0)
不过,我想从 myRDD.partitions(0)
分区数据。
我试着官方org.apache.spark文档,但没有找到。
But I want to get data from myRDD.partitions(0)
partition.
I tried official org.apache.spark documentation but couldn't find.
先谢谢了。
推荐答案
您可以使用 mapPartitionsWithIndex
如下:
// Create (1, 1), (2, 2), ..., (100, 100) dataset
// and partition by key so we know what to expect
val rdd = sc.parallelize((1 to 100) map (i => (i, i)), 16)
.partitionBy(new org.apache.spark.HashPartitioner(8))
val zeroth = rdd
// If partition number is not zero ignore data
.mapPartitionsWithIndex((idx, iter) => if (idx == 0) iter else Iterator())
// Check if we get expected results 8, 16, ..., 96
assert (zeroth.keys.map(_ % 8 == 0).reduce(_ & _) & zeroth.count == 12)
这篇关于如何从Spark中RDD特定的分区中获取数据?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文