怎样根据过滤行的列值是否在一组字符串在Spark数据框 [英] How do I filter rows based on whether a column value is in a Set of Strings in a Spark DataFrame

查看:364
本文介绍了怎样根据过滤行的列值是否在一组字符串在Spark数据框的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

有一个定义字符串的基于价值观的过滤更优雅的方式?

 高清myFilter(操作:设置[字符串],是myDF:数据帧):数据帧= {
  VAL containsAction = UDF((动作:字符串)=> {
    actions.contains(动作)
  })  myDF.filter(containsAction('行动))
}

在SQL你可以做

  SELECT * FROM myTable的其中(动作1,动作2,措施3')行动


解决方案

这个怎么样:

  myDF.filter(在行动(1,2))

 进口org.apache.spark.sql.functions.lit
myDF.where($行动。在(SEQ(1,2).MAP(亮起(_)):_ *))

 进口org.apache.spark.sql.functions.lit
myDF.where($行动。在(SEQ(亮(1),点燃(2)):_ *))

额外支持将被添加到使这种清洁剂在1.5

Is there a more elegant way of filtering based on values in a Set of String?

def myFilter(actions: Set[String], myDF: DataFrame): DataFrame = {
  val containsAction = udf((action: String) => {
    actions.contains(action)
  })

  myDF.filter(containsAction('action))
}

In SQL you can do

select * from myTable where action in ('action1', 'action2', 'action3')

解决方案

How about this:

myDF.filter("action in (1,2)")

OR

import org.apache.spark.sql.functions.lit       
myDF.where($"action".in(Seq(1,2).map(lit(_)):_*))

OR

import org.apache.spark.sql.functions.lit       
myDF.where($"action".in(Seq(lit(1),lit(2)):_*))

Additional support will be added to make this cleaner in 1.5

这篇关于怎样根据过滤行的列值是否在一组字符串在Spark数据框的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆