user-defined-functions 第4页 - IT屋-程序员软件开发技术分享社区

如何重命名现有的 Spark SQL 函数

我正在使用 Spark 对用户提交的数据调用函数. 如何将已存在的函数重命名为不同的名称，例如将 REGEXP_REPLACE 重命名为 REPLACE? 我尝试了以下代码: ss.udf.register("REPLACE", REGEXP_REPLACE)//这不起作用ss.udf.register("sum_in_all", sumInAll)ss.udf.register(" ..

发布时间：2021-11-14 23:30:27 apache-spark apache-spark-sql user-defined-functions 其他开发

如何重命名现有的 Spark SQL 函数

我正在使用 Spark 对用户提交的数据调用函数. 如何将已存在的函数重命名为不同的名称，例如将 REGEXP_REPLACE 重命名为 REPLACE? 我尝试了以下代码: ss.udf.register("REPLACE", REGEXP_REPLACE)//这不起作用ss.udf.register("sum_in_all", sumInAll)ss.udf.register(" ..

发布时间：2021-11-14 23:26:45 apache-spark apache-spark-sql user-defined-functions 其他开发

Spark SQL DSL 中的 UDF

我试图在 Spark SQL 作业中通过纯 SQL 使用 DSL，但我的 UDF 无法正常工作. sqlContext.udf.register("subdate",(dateTime: Long)=>dateTime.toString.dropRight(6)) 这不起作用 rdd1.toDF.join(rdd2.toDF).where("subdate(rdd1(date_time)) ..

发布时间：2021-11-14 23:19:11 sql apache-spark apache-spark-sql user-defined-functions dsl 其他开发

Python 中的 Spark 数据帧 - 使用 UDF 时执行卡住

我有一个用 Python 编写的 Spark 作业，它使用 DataBricks CSV 阅读器从 CSV 文件中读取数据. 我想通过应用 udf 函数将一些列从字符串转换为双精度，该函数实际上也在更改浮点分隔符. convert_udf = F.udf(lambda decimal_str: _to_float(decimal_separator, decimal_str),return ..

发布时间：2021-11-14 23:17:52 python apache-spark dataframe apache-spark-sql user-defined-functions Python

Spark - 如何在 Seq[Map] 中的单个字段上应用 udf

我有一个包含两列类型 String 和 Seq[Map[String, String]] 的数据框.类似的东西: 姓名联系人Alan [(Map(number -> 12345 , type -> home)), (Map(number -> 87878787 , type -> mobile))]Ben [(Map(number -> 94837593 , type -> job)),(Map ..

发布时间：2021-11-14 23:12:16 scala apache-spark apache-spark-sql user-defined-functions 其他开发

检查列是否具有正确的十进制数

我有一个数据框 (input_dataframe)，如下所示: id test_column1 0.252 1.13 124 测试5 1.33346 .11 我想添加一列 result，如果 test_column 具有十进制值，则该列将值设为 1 并且0 如果 test_column 有任何其他值.test_column 的数据类型是字符串.以下是预期的输出: id test_column ..

发布时间：2021-11-14 23:11:18 apache-spark pyspark spark-dataframe user-defined-functions 其他开发

是否有内置的 Spark 可以展平嵌套数组?

我有一个 DataFrame 字段，它是一个 Seq[Seq[String]] 我构建了一个 UDF 来将所述列转换为 Seq[String] 列；基本上，一个来自 Scala 的 flatten 函数的 UDF. def combineSentences(inCol: String, outCol: String): DataFrame =>数据帧 = {def flatfunc(seqOfS ..

发布时间：2021-11-14 23:10:40 scala apache-spark apache-spark-sql user-defined-functions 其他开发

Pyspark，如何使用 udf 计算泊松分布?

我有一个如下所示的数据框: df_schema = StructType([StructField(“date", StringType(), True),\StructField("col1", FloatType(), True),\StructField("col2", FloatType(), True)])df_data = [('2020-08-01',0.09,0.8),\('20 ..

发布时间：2021-11-14 23:06:39 pyspark apache-spark-sql user-defined-functions 其他开发

错误执行器:阶段 6.0 spark scala 中任务 0.0 中的异常?

我有一个像下面这样的 json 文件. {"name":"method2","name1":"test","parameter1":"C:/Users/test/Desktop/Online.csv","parameter2": 1.0} 我正在加载我的 json 文件. val sqlContext = new org.apache.spark.sql.SQLContext(sc)val ..

发布时间：2021-11-14 23:02:05 scala apache-spark apache-spark-sql spark-dataframe user-defined-functions 其他开发

返回动态数据类型的 Apache Spark UDF

我有 UDF 处理 JSON 并返回每行的动态数据结果.在我的情况下，我需要它来验证数据并返回经过验证的数据. 架构对于每一行都是灵活的.这意味着我无法为每个案例创建 case class(我的一些数据可以嵌套). 我试图从我的 UDF 函数返回元组，但我也没有运气(因为我需要从列表转换为元组)，我没有找到一个优雅的解决方案. 我返回的数据类型是String、Integer、Do ..

发布时间：2021-11-14 22:57:45 scala apache-spark apache-spark-sql user-defined-functions 其他开发

一次计算UDF

我想在 pyspark 数据框中有一个只计算一次的 UUID 列，以便我可以在不同的数据框中选择该列并使 UUID 相同.但是，当我选择该列时，会重新计算 UUID 列的 UDF. 这是我想要做的: >>>uuid_udf = udf(lambda: str(uuid.uuid4()), StringType())>>>a = spark.createDataFrame([[1, 2]], ..

发布时间：2021-11-14 22:54:50 apache-spark pyspark user-defined-functions pyspark-sql uuid 其他开发

Spark 数据框 - 使用 scala 将公共字符串的标记替换为每行的列值

我有一个包含 3 列的数据框 - 数字(整数)、名称(字符串)、颜色(字符串).下面是带有重新分区选项的 df.show 的结果. val df = sparkSession.read.format("csv").option("header", "true").option("inferschema", "true").option("delimiter", ",").option("deco ..

发布时间：2021-11-14 22:54:14 scala apache-spark dataframe apache-spark-sql user-defined-functions 其他开发

pySpark withColumn 带函数

我有一个包含 2 列的数据框:account_id 和 email_address，现在我想再添加一列 updated_email_address，我称之为email_address 上的函数以获取 updated_email_address.这是我的代码: def update_email(email):打印("==要更新的电子邮件:"+电子邮件)今天 = datetime.date.toda ..

发布时间：2021-11-14 22:52:27 apache-spark pyspark apache-spark-sql user-defined-functions 其他开发

创建一个 Spark udf 函数来迭代一个字节数组并将其转换为数字

我在 spark (python) 中有一个包含字节数组的 Dataframe DF.select(DF.myfield).show(1, False)+----------------+|我的领域 |+----------------+|[00 8F 2B 9C 80]|+----------------+ 我正在尝试将此数组转换为字符串 '008F2B9C80' 然后到数值 int( ..

发布时间：2021-11-14 22:49:56 apache-spark lambda apache-spark-sql user-defined-functions 其他开发

咖喱 UDF - Pyspark

我正在尝试在 spark 中实现一个 UDF；可以将文字和列作为参数.为了实现这一点，我相信我可以使用咖喱 UDF. 该函数用于将字符串文字与 DataFrame 列中的每个值进行匹配.我总结了以下代码:- def 匹配(match_string_1):def match_inner(match_string_2):返回 difflib.SequenceMatcher(None, matc ..

发布时间：2021-11-14 22:48:06 python apache-spark pyspark apache-spark-sql user-defined-functions Python

尝试在 Spark 中将 blob 转换为多列

我有一个序列化的 blob 和一个将其转换为 java Map 的函数.我已将该函数注册为 UDF 并尝试在 Spark SQL 中使用它，如下所示: sqlCtx.udf.register("blobToMap", Utils.blobToMap)val df = sqlCtx.sql(""" SELECT mp['c1'] as c1, mp['c2'] as c2 FROM(SELECT ..

发布时间：2021-11-14 22:47:29 user-defined-functions apache-spark-sql udf 其他开发

如何产生熊猫数据帧行以触发数据帧

嗨，我正在进行转换，我已经创建了 some_function(iter) 生成器到 yield Row(id=index, api=row['api'], A=row['A'], B=row['B'] 将转换后的行从 Pandas 数据帧生成到 rdd 并触发数据帧.我收到错误.(我必须使用 Pandas 来转换数据，因为有大量遗留代码) 输入 Spark 数据帧 respond_sdf. ..

发布时间：2021-11-14 22:46:49 pandas apache-spark pyspark apache-spark-sql user-defined-functions Python

如何从Pyspark中的一列日期中减去一列天?

给定以下 PySpark DataFrame df = sqlContext.createDataFrame([('2015-01-15', 10),('2015-02-15', 5)],('date_col', 'days_col')) 如何从日期列中减去天数列?在此示例中，结果列应为 ['2015-01-05', '2015-02-10']. 我查看了 pyspark.sql.fun ..

发布时间：2021-11-14 22:37:54 python apache-spark pyspark apache-spark-sql user-defined-functions Python

在 pyspark UDF 中使用类方法

数据工程师您好！我正在尝试使用名为星界这里是udf: def time_from_solar_noon(d, y):noon = astral.Astral().solar_noon_utc时间 = 中午(d，y)回程时间SolarNoon = F.udf(lambda d, y: time_from_solar_noon(d,y), TimestampType()) 按照我 ..

发布时间：2021-11-14 22:37:14 python pyspark user-defined-functions pyspark-sql pyspark-dataframes Python

将结构传递给 spark 中的 UDAF

我有以下架构 - root|-- id:string (nullable = false)|-- 年龄:长(可为空 = 真)|-- 汽车: struct (nullable = true)||-- car1: string (nullable = true)||-- car2: string (nullable = true)||-- car3: string (nullable = true) ..

发布时间：2021-11-14 22:36:33 scala apache-spark hadoop apache-spark-sql user-defined-functions 其他开发

user-defined-functions相关内容