Spark选择RDD中的最高值 [英] Spark select top values in RDD

查看:149
本文介绍了Spark选择RDD中的最高值的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

原始数据集是:

# (numbersofrating,title,avg_rating)
newRDD =[(3,'monster',4),(4,'minions 3D',5),....] 

我想在newRDD中选择前N个avg_ratings.我使用下面的代码,它有一个错误.

I want to select top N avg_ratings in newRDD.I use the following code,it has an error.

selectnewRDD = (newRDD.map(x, key =lambda x: x[2]).sortBy(......))

TypeError: map() takes no keyword arguments

预期数据应为:

# (numbersofrating,title,avg_rating)
selectnewRDD =[(4,'minions 3D',5),(3,'monster',4)....] 

推荐答案

您可以将toptakeOrderedkey参数一起使用:

You can use either top or takeOrdered with key argument:

newRDD.top(2, key=lambda x: x[2])

newRDD.takeOrdered(2, key=lambda x: -x[2])

请注意,top的元素按降序排列,而takeOrdered的元素按升序排列,因此key的功能在两种情况下都是不同的.

Note that top is taking elements in descending order and takeOrdered in ascending so key function is different in both cases.

这篇关于Spark选择RDD中的最高值的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆