user-defined-functions相关内容
我正在使用 Spark 对用户提交的数据调用函数. 如何将已存在的函数重命名为不同的名称,例如将 REGEXP_REPLACE 重命名为 REPLACE? 我尝试了以下代码: ss.udf.register("REPLACE", REGEXP_REPLACE)//这不起作用ss.udf.register("sum_in_all", sumInAll)ss.udf.register("
..
我正在使用 Spark 对用户提交的数据调用函数. 如何将已存在的函数重命名为不同的名称,例如将 REGEXP_REPLACE 重命名为 REPLACE? 我尝试了以下代码: ss.udf.register("REPLACE", REGEXP_REPLACE)//这不起作用ss.udf.register("sum_in_all", sumInAll)ss.udf.register("
..
我试图在 Spark SQL 作业中通过纯 SQL 使用 DSL,但我的 UDF 无法正常工作. sqlContext.udf.register("subdate",(dateTime: Long)=>dateTime.toString.dropRight(6)) 这不起作用 rdd1.toDF.join(rdd2.toDF).where("subdate(rdd1(date_time))
..
我有一个用 Python 编写的 Spark 作业,它使用 DataBricks CSV 阅读器从 CSV 文件中读取数据. 我想通过应用 udf 函数将一些列从字符串转换为双精度,该函数实际上也在更改浮点分隔符. convert_udf = F.udf(lambda decimal_str: _to_float(decimal_separator, decimal_str),return
..
我有一个包含两列类型 String 和 Seq[Map[String, String]] 的数据框.类似的东西: 姓名联系人Alan [(Map(number -> 12345 , type -> home)), (Map(number -> 87878787 , type -> mobile))]Ben [(Map(number -> 94837593 , type -> job)),(Map
..
我有一个数据框 (input_dataframe),如下所示: id test_column1 0.252 1.13 124 测试5 1.33346 .11 我想添加一列 result,如果 test_column 具有十进制值,则该列将值设为 1 并且0 如果 test_column 有任何其他值.test_column 的数据类型是字符串.以下是预期的输出: id test_column
..
我有一个 DataFrame 字段,它是一个 Seq[Seq[String]] 我构建了一个 UDF 来将所述列转换为 Seq[String] 列;基本上,一个来自 Scala 的 flatten 函数的 UDF. def combineSentences(inCol: String, outCol: String): DataFrame =>数据帧 = {def flatfunc(seqOfS
..
我有一个如下所示的数据框: df_schema = StructType([StructField(“date", StringType(), True),\StructField("col1", FloatType(), True),\StructField("col2", FloatType(), True)])df_data = [('2020-08-01',0.09,0.8),\('20
..
我有一个像下面这样的 json 文件. {"name":"method2","name1":"test","parameter1":"C:/Users/test/Desktop/Online.csv","parameter2": 1.0} 我正在加载我的 json 文件. val sqlContext = new org.apache.spark.sql.SQLContext(sc)val
..
我有 UDF 处理 JSON 并返回每行的动态数据结果.在我的情况下,我需要它来验证数据并返回经过验证的数据. 架构对于每一行都是灵活的.这意味着我无法为每个案例创建 case class(我的一些数据可以嵌套). 我试图从我的 UDF 函数返回元组,但我也没有运气(因为我需要从列表转换为元组),我没有找到一个优雅的解决方案. 我返回的数据类型是String、Integer、Do
..
我想在 pyspark 数据框中有一个只计算一次的 UUID 列,以便我可以在不同的数据框中选择该列并使 UUID 相同.但是,当我选择该列时,会重新计算 UUID 列的 UDF. 这是我想要做的: >>>uuid_udf = udf(lambda: str(uuid.uuid4()), StringType())>>>a = spark.createDataFrame([[1, 2]],
..
我有一个包含 3 列的数据框 - 数字(整数)、名称(字符串)、颜色(字符串).下面是带有重新分区选项的 df.show 的结果. val df = sparkSession.read.format("csv").option("header", "true").option("inferschema", "true").option("delimiter", ",").option("deco
..
我有一个包含 2 列的数据框:account_id 和 email_address,现在我想再添加一列 updated_email_address,我称之为email_address 上的函数以获取 updated_email_address.这是我的代码: def update_email(email):打印("==要更新的电子邮件:"+电子邮件)今天 = datetime.date.toda
..
我在 spark (python) 中有一个包含字节数组的 Dataframe DF.select(DF.myfield).show(1, False)+----------------+|我的领域 |+----------------+|[00 8F 2B 9C 80]|+----------------+ 我正在尝试将此数组转换为字符串 '008F2B9C80' 然后到数值 int(
..
我正在尝试在 spark 中实现一个 UDF;可以将文字和列作为参数.为了实现这一点,我相信我可以使用咖喱 UDF. 该函数用于将字符串文字与 DataFrame 列中的每个值进行匹配.我总结了以下代码:- def 匹配(match_string_1):def match_inner(match_string_2):返回 difflib.SequenceMatcher(None, matc
..
我有一个序列化的 blob 和一个将其转换为 java Map 的函数.我已将该函数注册为 UDF 并尝试在 Spark SQL 中使用它,如下所示: sqlCtx.udf.register("blobToMap", Utils.blobToMap)val df = sqlCtx.sql(""" SELECT mp['c1'] as c1, mp['c2'] as c2 FROM(SELECT
..
嗨,我正在进行转换,我已经创建了 some_function(iter) 生成器到 yield Row(id=index, api=row['api'], A=row['A'], B=row['B'] 将转换后的行从 Pandas 数据帧生成到 rdd 并触发数据帧.我收到错误.(我必须使用 Pandas 来转换数据,因为有大量遗留代码) 输入 Spark 数据帧 respond_sdf.
..
给定以下 PySpark DataFrame df = sqlContext.createDataFrame([('2015-01-15', 10),('2015-02-15', 5)],('date_col', 'days_col')) 如何从日期列中减去天数列?在此示例中,结果列应为 ['2015-01-05', '2015-02-10']. 我查看了 pyspark.sql.fun
..
数据工程师您好! 我正在尝试使用名为 星界 这里是udf: def time_from_solar_noon(d, y):noon = astral.Astral().solar_noon_utc时间 = 中午(d,y)回程时间SolarNoon = F.udf(lambda d, y: time_from_solar_noon(d,y), TimestampType()) 按照我
..
我有以下架构 - root|-- id:string (nullable = false)|-- 年龄:长(可为空 = 真)|-- 汽车: struct (nullable = true)||-- car1: string (nullable = true)||-- car2: string (nullable = true)||-- car3: string (nullable = true)
..