user-defined-functions 第7页 - IT屋-程序员软件开发技术分享社区

Spark 错误:用于构建 ClassDict 的预期零参数(对于 numpy.core.multiarray._reconstruct)

我在 Spark 中有一个数据框，其中一列包含一个数组.现在，我编写了一个单独的 UDF，它将数组转换为另一个仅包含不同值的数组.请参见下面的示例: 例如:[24,23,27,23] 应该转换为 [24, 23, 27]代码: def uniq_array(col_array):x = np.unique(col_array)返回 xuniq_array_udf = udf(uniq_ar ..

发布时间：2021-11-14 21:18:24 arrays apache-spark pyspark apache-spark-sql user-defined-functions 其他开发

定义一个接受 Spark DataFrame 中的对象数组的 UDF?

使用 Spark 的 DataFrame 时，需要用户定义函数 (UDF) 来映射列中的数据.UDF 要求显式指定参数类型.就我而言，我需要操作由对象数组组成的列，但我不知道要使用什么类型.举个例子: import sqlContext.implicits._//从一些数据开始.每一行(这里只有一行)//是一个主题和一堆主题val 数据 = sqlContext.read.json(sc.par ..

发布时间：2021-11-14 21:18:14 scala apache-spark dataframe apache-spark-sql user-defined-functions 其他开发

如何将额外的参数传递给 Spark SQL 中的 UDF?

我想解析 DataFrame 中的日期列，对于每个日期列，日期的分辨率可能会改变(即 2011/01/10 => 2011/01 如果分辨率是设置为“月"). 我写了以下代码: def convertDataFrame(dataframe: DataFrame, schema : Array[FieldDataType], resolution: Array[DateResolutionT ..

发布时间：2021-11-14 21:16:50 scala apache-spark apache-spark-sql user-defined-functions 其他开发

SparkSQL:如何处理用户定义函数中的空值?

给定表 1，其中一列“x"是字符串类型.我想用列“y"创建表 2，该列是“x"中给出的日期字符串的整数表示. 必不可少的是在列“y"中保留null值. 表 1(数据框 df1): +-----------+|×|+-----------+|2015-09-12||2015-09-13||空||空|+-----------+根|-- x: 字符串(可为空 = 真) 表 2(数据框 d ..

发布时间：2021-11-14 21:16:41 scala apache-spark apache-spark-sql user-defined-functions nullable 其他开发

在 PySpark 中的 GroupedData 上应用 UDF(带有运行的 Python 示例)

我有一个在 Pandas 数据帧中本地运行的 python 代码: df_result = pd.DataFrame(df.groupby('A').apply(lambda x: myFunction(zip(x.B, x.C), x.name)) 我想在 PySpark 中运行它，但在处理 pyspark.sql.group.GroupedData 对象时遇到问题. 我尝试了以下方法 ..

发布时间：2021-11-14 21:14:45 python apache-spark pyspark apache-spark-sql user-defined-functions Python

如何在 Spark SQL 中定义和使用用户定义的聚合函数?

我知道如何在 Spark SQL 中编写 UDF: def underThreshold(power: Int): Boolean = {返回功率＜-40}sqlContext.udf.register("低于阈值",低于阈值_) 我可以做一些类似的事情来定义一个聚合函数吗?这是怎么做的? 对于上下文，我想运行以下 SQL 查询: val aggDF = sqlContext.sql( ..

发布时间：2021-11-14 21:14:29 scala apache-spark apache-spark-sql aggregate-functions user-defined-functions 其他开发

Spark 函数与 UDF 性能?

Spark 现在提供可在数据帧中使用的预定义函数，而且它们似乎已经过高度优化.我最初的问题是关于哪个更快，但我自己做了一些测试，发现 spark 函数至少在一个实例中快了 10 倍.有谁知道为什么会这样，udf 什么时候会更快(仅适用于存在相同火花函数的情况)? 这是我的测试代码(在 Databricks 社区版上运行): # UDF vs Spark 函数来自 faker 进口工厂fro ..

发布时间：2021-11-14 21:13:32 performance apache-spark pyspark apache-spark-sql user-defined-functions 其他开发

Apache Spark -- 将 UDF 的结果分配给多个数据框列

我正在使用 pyspark，使用 spark-csv 将大型 csv 文件加载到数据框中，作为预处理步骤，我需要对其中一列(包含json 字符串).这将返回 X 个值，每个值都需要存储在自己单独的列中. 该功能将在 UDF 中实现.但是，我不确定如何从该 UDF 返回值列表并将这些值输入到各个列中.下面是一个简单的例子: (...)从 pyspark.sql.functions 导入 ud ..

发布时间：2021-11-12 05:42:29 python apache-spark pyspark apache-spark-sql user-defined-functions Python

如何使用 JAVA 在 Spark DataFrame 上调用 UDF?

与此处的类似问题，但没有足够的分数在那里发表评论. 根据Spark最新documentation 可以以两种不同的方式使用 udf，一种使用 SQL，另一种使用 DataFrame.我找到了多个关于如何在 sql 中使用 udf 的示例，但没有找到任何关于如何直接在 DataFrame 上使用 udf 的示例. o.p. 提供的解决方案在上面链接的问题上使用 __callUDF()__ ..

发布时间：2021-11-12 05:40:33 java apache-spark apache-spark-sql user-defined-functions Java开发

使用 UDF 时忽略条件

假设您有以下 pyspark DataFrame: data= [('foo',), ('123',), (None,), ('bar',)]df = sqlCtx.createDataFrame(data, ["col"])df.show()#+----+#|颜色|#+----+#|富|#|123|#|空|#|酒吧|#+----+ 接下来的两个代码块应该做同样的事情——也就是说，如果列不是n ..

发布时间：2021-11-12 05:38:48 python apache-spark pyspark spark-dataframe user-defined-functions Python

如何在 Spark SQL 中找到分组向量列的平均值?

我通过调用instances.groupBy(instances.col("property_name"))创建了一个RelationalGroupedDataset: val x = instances.groupBy(instances.col("property_name")) 如何编写用户定义的聚合函数来执行Statistics.colStats().mean 每组? 谢谢！ ..

发布时间：2021-11-12 05:38:22 apache-spark apache-spark-sql aggregate-functions user-defined-functions apache-spark-ml 其他开发

从 Spark DataFrame 中的单个列派生多个列

我有一个 DF，其中包含一个巨大的可解析元数据作为 Dataframe 中的单个字符串列，我们称之为 DFA，使用 ColmnA. 我想通过函数 ClassXYZ = Func1(ColmnA) 将该列 ColmnA 分成多列.该函数返回一个 ClassXYZ 类，其中包含多个变量，现在每个变量都必须映射到新的 Column，例如 ColmnA1、ColmnA2 等. 我将如何通过仅调 ..

发布时间：2021-11-12 05:34:32 scala apache-spark dataframe apache-spark-sql user-defined-functions 其他开发

Spark UDAF 与 ArrayType 作为 bufferSchema 性能问题

我正在研究一个返回元素数组的 UDAF. 每次更新的输入是索引和值的元组. UDAF 的作用是对同一索引下的所有值求和. 示例: 对于 input(index,value) : (2,1), (3,1), (2,3) 应该返回 (0,0,4,1,...,0) 逻辑工作正常，但我的更新方法有问题，我的实现仅每行更新 1 个单元格，但该方法中的最后一个分配实际上复制 ..

发布时间：2021-11-12 05:34:03 scala performance apache-spark apache-spark-sql user-defined-functions 其他开发

关于如何在 Scala 中使用随机值向现有 DataFrame 添加新列

我有一个带有镶木地板文件的数据框，我必须添加一个包含一些随机数据的新列，但我需要这些随机数据彼此不同.这是我的实际代码，spark 的当前版本是 1.5.1-cdh-5.5.2: val mydf = sqlContext.read.parquet("some.parquet")//mydf.count()//63385686mydf.cacheval r = scala.util.Random ..

发布时间：2021-11-12 05:33:06 scala apache-spark random apache-spark-sql user-defined-functions 其他开发

将数据框列和外部列表传递给 withColumn 下的 udf

我有一个具有以下结构的 Spark 数据框.bodyText_token 具有标记(已处理/一组单词).我有一个已定义关键字的嵌套列表 root|-- id: string (nullable = true)|-- 正文:字符串(可为空 = 真)|-- bodyText_token: 数组 (nullable = true)keyword_list=[['union','workers','st ..

发布时间：2021-11-12 05:32:14 python apache-spark pyspark apache-spark-sql user-defined-functions Python

Spark 错误:用于构建 ClassDict 的预期零参数(对于 numpy.core.multiarray._reconstruct)

我在 Spark 中有一个数据框，其中一列包含一个数组.现在，我编写了一个单独的 UDF，它将数组转换为另一个仅包含不同值的数组.请参见下面的示例: 例如:[24,23,27,23] 应该转换为 [24, 23, 27]代码: def uniq_array(col_array):x = np.unique(col_array)返回 xuniq_array_udf = udf(uniq_ar ..

发布时间：2021-11-12 05:31:14 arrays apache-spark pyspark apache-spark-sql user-defined-functions 其他开发

定义一个接受 Spark DataFrame 中的对象数组的 UDF?

使用 Spark 的 DataFrame 时，需要用户定义函数 (UDF) 来映射列中的数据.UDF 要求显式指定参数类型.就我而言，我需要操作由对象数组组成的列，但我不知道要使用什么类型.举个例子: import sqlContext.implicits._//从一些数据开始.每一行(这里只有一行)//是一个主题和一堆主题val 数据 = sqlContext.read.json(sc.par ..

发布时间：2021-11-12 05:31:06 scala apache-spark dataframe apache-spark-sql user-defined-functions 其他开发

如何将额外的参数传递给 Spark SQL 中的 UDF?

我想解析 DataFrame 中的日期列，对于每个日期列，日期的分辨率可能会改变(即 2011/01/10 => 2011/01 如果分辨率是设置为“月"). 我写了以下代码: def convertDataFrame(dataframe: DataFrame, schema : Array[FieldDataType], resolution: Array[DateResolutionT ..

发布时间：2021-11-12 05:28:41 scala apache-spark apache-spark-sql user-defined-functions 其他开发

SparkSQL:如何处理用户定义函数中的空值?

给定表 1，其中一列“x"是字符串类型.我想用列“y"创建表 2，该列是“x"中给出的日期字符串的整数表示. 必不可少的是在列“y"中保留null值. 表 1(数据框 df1): +-----------+|×|+-----------+|2015-09-12||2015-09-13||空||空|+-----------+根|-- x: 字符串(可为空 = 真) 表 2(数据框 d ..

发布时间：2021-11-12 05:28:32 scala apache-spark apache-spark-sql user-defined-functions nullable 其他开发

在 PySpark 中的 GroupedData 上应用 UDF(带有运行的 Python 示例)

我有一个在 Pandas 数据帧中本地运行的 python 代码: df_result = pd.DataFrame(df.groupby('A').apply(lambda x: myFunction(zip(x.B, x.C), x.name)) 我想在 PySpark 中运行它，但在处理 pyspark.sql.group.GroupedData 对象时遇到问题. 我尝试了以下方法 ..

发布时间：2021-11-12 05:25:07 python apache-spark pyspark apache-spark-sql user-defined-functions Python

user-defined-functions相关内容