验证并更改pysppark中的日期格式 [英] Validate and change the date formats in pyspark

查看:16
本文介绍了验证并更改pysppark中的日期格式的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我有一个包含不同日期格式的日期列。现在我想用特定的格式(‘MM-dd-yyyy’)来验证它,不匹配的必须将日期格式化为所需的日期。

df = sc.parallelize([['12-21-2006'],
                     ['05/30/2007'],
                     ['01-01-1984'],
                     ['22-12-2017'],
                     ['12222019']]).toDF(["Date"])
df.show()
+----------+
|      Date|
+----------+
|12-21-2006|
|05/30/2007|
|01-01-1984|
|22-12-2017|
|  12222019|
+----------+

现在进行验证,

correct=df.filter(~F.col("Date").isNotNull()|
                                           to_date(F.col("Date"),'MM-dd-yyyy').isNotNull())
correct.show()

+----------+
|      Date|
+----------+
|12-21-2006|
|01-01-1984|
+----------+

现在,我提取了错误的记录,如下:-

wrong = df.exceptAll(correct)
wrong.show()

+----------+
|      Date|
+----------+
|05/30/2007|
|  12222019|
|22-12-2017|
+----------+

现在必须将这些错误记录的日期格式设置为所需的格式

'MM-dd-yyyy'
如果它是单一的,我可以通过指定特定的格式来更改格式,但如何将不同的日期格式转换为所需的日期格式?有什么解决方案吗?

推荐答案

您可以在不同的列中尝试不同的时间格式,然后使用coalesce获取第一个非空值:

df.withColumn("d1", F.to_date(F.col("Date"),'MM-dd-yyyy')) 
  .withColumn("d2", F.to_date(F.col("Date"),'MM/dd/yyyy')) 
  .withColumn("d3", F.to_date(F.col("Date"),'dd-MM-yyyy')) 
  .withColumn("d4", F.to_date(F.col("Date"),'MMddyyyy')) 
  .withColumn("result", F.coalesce("d1", "d2", "d3", "d4")) 
  .show()

输出:

+----------+----------+----------+----------+----------+----------+
|      Date|        d1|        d2|        d3|        d4|    result|
+----------+----------+----------+----------+----------+----------+
|12-21-2006|2006-12-21|      null|      null|      null|2006-12-21|
|05/30/2007|      null|2007-05-30|      null|      null|2007-05-30|
|01-01-1984|1984-01-01|      null|1984-01-01|      null|1984-01-01|
|22-12-2017|      null|      null|2017-12-22|      null|2017-12-22|
|  12222019|      null|      null|      null|2019-12-22|2019-12-22|
+----------+----------+----------+----------+----------+----------+

这篇关于验证并更改pysppark中的日期格式的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆