在数据库/Spark中为SQL中的变量赋值动态值 [英] Assign a variable a dynamic value in SQL in Databricks / Spark
本文介绍了在数据库/Spark中为SQL中的变量赋值动态值的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
我觉得这里肯定漏掉了一些明显的东西,但我似乎无法在Spark SQL中动态设置变量值。
假设我有两个表tableSrc
和tableBuilder
,并且我正在创建tableDest
。
我一直在尝试
上的变体SET myVar FLOAT = NULL
SELECT
myVar = avg(myCol)
FROM tableSrc;
CREATE TABLE tableDest(
refKey INT,
derivedValue FLOAT
);
INSERT INTO tableDest
SELECT
refKey,
neededValue * myVar AS `derivedValue`
FROM tableBuilder
在T-SQL中做到这一点是微不足道的,这对微软来说是一个令人惊讶的胜利(DECLARE
...SELECT
)。然而,火花抛出
Error in SQL statement: ParseException:
mismatched input 'SELECT' expecting <EOF>(line 53, pos 0)
但我似乎不能将派生值赋给变量以供重复使用。我尝试了一些变体,但我得到的最接近的结果是将变量赋给SELECT语句的字符串。
请注意,这是从T-SQL中的一个全功能脚本改编而来的,所以我不会拆分十几个左右的SQL变量来使用Python Spark查询来计算所有这些变量,只是为了在数百行的f字符串中插入{var1}
、{var2}
等。我知道如何做到这一点,但它将是凌乱的、困难的、更难阅读的、迁移较慢的、更难维护的,如果可能的话,我希望避免这种情况。
推荐答案
刚刚发布的SQL user defined functions,它可以在不影响性能的情况下处理类似的问题,对于您的示例,它将如下所示:
CREATE TEMP FUNCTION myVar()
RETURNS FLOAT
LANGUAGE SQL
RETURN
SELECT
avg(myCol)
FROM tableSrc;
然后使用:
SELECT
refKey,
neededValue * myVar() AS `derivedValue`
FROM tableBuilder
这篇关于在数据库/Spark中为SQL中的变量赋值动态值的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文