在数据库/Spark中为SQL中的变量赋值动态值 [英] Assign a variable a dynamic value in SQL in Databricks / Spark

查看：0 发布时间：2022/8/11 18:52:02 apache-spark apache-spark-sql pyspark-sql databricks

本文介绍了在数据库/Spark中为SQL中的变量赋值动态值的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我觉得这里肯定漏掉了一些明显的东西，但我似乎无法在Spark SQL中动态设置变量值。

假设我有两个表tableSrc和tableBuilder，并且我正在创建tableDest。

我一直在尝试

上的变体

SET myVar FLOAT = NULL

SELECT
    myVar = avg(myCol)
FROM tableSrc;

CREATE TABLE tableDest(
    refKey INT,
    derivedValue FLOAT
);


INSERT INTO tableDest
    SELECT
        refKey,
        neededValue * myVar AS `derivedValue`
    FROM tableBuilder

在T-SQL中做到这一点是微不足道的，这对微软来说是一个令人惊讶的胜利(DECLARE...SELECT)。然而，火花抛出

Error in SQL statement: ParseException: mismatched input 'SELECT' expecting <EOF>(line 53, pos 0)

但我似乎不能将派生值赋给变量以供重复使用。我尝试了一些变体，但我得到的最接近的结果是将变量赋给SELECT语句的字符串。

请注意，这是从T-SQL中的一个全功能脚本改编而来的，所以我不会拆分十几个左右的SQL变量来使用Python Spark查询来计算所有这些变量，只是为了在数百行的f字符串中插入{var1}、{var2}等。我知道如何做到这一点，但它将是凌乱的、困难的、更难阅读的、迁移较慢的、更难维护的，如果可能的话，我希望避免这种情况。

推荐答案

刚刚发布的SQL user defined functions，它可以在不影响性能的情况下处理类似的问题，对于您的示例，它将如下所示：

CREATE TEMP FUNCTION myVar()
RETURNS FLOAT
LANGUAGE SQL
RETURN 
SELECT
    avg(myCol)
FROM tableSrc;

然后使用：

SELECT
      refKey,
      neededValue * myVar() AS `derivedValue`
FROM tableBuilder

这篇关于在数据库/Spark中为SQL中的变量赋值动态值的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

在数据库/Spark中为SQL中的变量赋值动态值 [英] Assign a variable a dynamic value in SQL in Databricks / Spark

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

在数据库/Spark中为SQL中的变量赋值动态值 [英] Assign a variable a dynamic value in SQL in Databricks / Spark

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭