PySpark-使用时间戳数据类型解决isnan错误 [英] PySpark - Resolving isnan errors with TimeStamp datatype

查看:0
本文介绍了PySpark-使用时间戳数据类型解决isnan错误的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在尝试创建一个函数来检查数据的质量(nans/null等) 我在一个PySpark DataFrame上运行了以下代码

df.select([f.count(f.when((f.isnan(c) | f.col(c).isNull()), c)).alias(c) for c in cols_check]).show()

只要要检查的列是字符串/整数,我就没有问题。但是,当我检查数据类型为datetimestamp的列时,收到以下错误:

由于数据类型不匹配,无法解析‘isnan(Date_Time)’: 参数1需要(DOUBLE或FLOAT)类型,但是,‘Date_Time’是 属于时间戳类型。;; ‘聚合...

该列中有明确的空值,我如何解决此问题?

推荐答案

您可以使用df.dtypes检查每一列的类型,并能够以不同的方式处理timestampdateNULL计数:

from pyspark.sql import functions as F

df.select(*[
    (
        F.count(F.when((F.isnan(c) | F.col(c).isNull()), c)) if t not in ("timestamp", "date")
        else F.count(F.when(F.col(c).isNull(), c))
    ).alias(c)
    for c, t in df.dtypes if c in cols_check
]).show()

这篇关于PySpark-使用时间戳数据类型解决isnan错误的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆