如何根据列值是否在 Spark DataFrame 中的一组字符串中过滤行 [英] How do I filter rows based on whether a column value is in a Set of Strings in a Spark DataFrame
本文介绍了如何根据列值是否在 Spark DataFrame 中的一组字符串中过滤行的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
有没有更优雅的基于一组字符串中的值进行过滤的方法?
Is there a more elegant way of filtering based on values in a Set of String?
def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = {
val containsAction = udf((action: String) => {
actions.contains(action)
})
myDF.filter(containsAction('action))
}
在 SQL 中你可以做到
In SQL you can do
select * from myTable where action in ('action1', 'action2', 'action3')
推荐答案
这个怎么样:
myDF.filter("action in (1,2)")
或
import org.apache.spark.sql.functions.lit
myDF.where($"action".in(Seq(1,2).map(lit(_)):_*))
或
import org.apache.spark.sql.functions.lit
myDF.where($"action".in(Seq(lit(1),lit(2)):_*))
这篇关于如何根据列值是否在 Spark DataFrame 中的一组字符串中过滤行的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文