在数据库/Spark中为SQL中的变量赋值动态值 [英] Assign a variable a dynamic value in SQL in Databricks / Spark

查看:0
本文介绍了在数据库/Spark中为SQL中的变量赋值动态值的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我觉得这里肯定漏掉了一些明显的东西,但我似乎无法在Spark SQL中动态设置变量值。

假设我有两个表tableSrctableBuilder,并且我正在创建tableDest

我一直在尝试

上的变体
SET myVar FLOAT = NULL

SELECT
    myVar = avg(myCol)
FROM tableSrc;

CREATE TABLE tableDest(
    refKey INT,
    derivedValue FLOAT
);


INSERT INTO tableDest
    SELECT
        refKey,
        neededValue * myVar AS `derivedValue`
    FROM tableBuilder

在T-SQL中做到这一点是微不足道的,这对微软来说是一个令人惊讶的胜利(DECLARE...SELECT)。然而,火花抛出

Error in SQL statement: ParseException: mismatched input 'SELECT' expecting <EOF>(line 53, pos 0)

但我似乎不能将派生值赋给变量以供重复使用。我尝试了一些变体,但我得到的最接近的结果是将变量赋给SELECT语句的字符串。

请注意,这是从T-SQL中的一个全功能脚本改编而来的,所以我不会拆分十几个左右的SQL变量来使用Python Spark查询来计算所有这些变量,只是为了在数百行的f字符串中插入{var1}{var2}等。我知道如何做到这一点,但它将是凌乱的、困难的、更难阅读的、迁移较慢的、更难维护的,如果可能的话,我希望避免这种情况

推荐答案

刚刚发布的SQL user defined functions,它可以在不影响性能的情况下处理类似的问题,对于您的示例,它将如下所示:

CREATE TEMP FUNCTION myVar()
RETURNS FLOAT
LANGUAGE SQL
RETURN 
SELECT
    avg(myCol)
FROM tableSrc;

然后使用:

SELECT
      refKey,
      neededValue * myVar() AS `derivedValue`
FROM tableBuilder

这篇关于在数据库/Spark中为SQL中的变量赋值动态值的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆