user-defined-functions相关内容

返回动态数据类型的 Apache Spark UDF

我有 UDF 处理 JSON 并返回每行的动态数据结果.在我的情况下,我需要它来验证数据并返回经过验证的数据. 架构对于每一行都是灵活的.这意味着我无法为每个案例创建 case class(我的一些数据可以嵌套). 我试图从我的 UDF 函数返回元组,但我也没有运气(因为我需要从列表转换为元组),我没有找到一个优雅的解决方案. 我返回的数据类型是String、Integer、Do ..

一次计算UDF

我想在 pyspark 数据框中有一个只计算一次的 UUID 列,以便我可以在不同的数据框中选择该列并使 UUID 相同.但是,当我选择该列时,会重新计算 UUID 列的 UDF. 这是我想要做的: >>>uuid_udf = udf(lambda: str(uuid.uuid4()), StringType())>>>a = spark.createDataFrame([[1, 2]], ..

咖喱 UDF - Pyspark

我正在尝试在 spark 中实现一个 UDF;可以将文字和列作为参数.为了实现这一点,我相信我可以使用咖喱 UDF. 该函数用于将字符串文字与 DataFrame 列中的每个值进行匹配.我总结了以下代码:- def 匹配(match_string_1):def match_inner(match_string_2):返回 difflib.SequenceMatcher(None, matc ..