apache-spark-sql相关内容

如何提高数据库性能?

我有一个问题,我写信给Synapse Running花了这么多时间(>;20个小时)。我可以做些什么来改进我的需要写入Synapse的数据库?我的资源表来自Azure Synase上的事实数据表(包含151百万行)。我假设我的脚本不适合在数据库上运行,而且我还假设它是由垃圾收集造成的,这让我的工作停滞不前。但是,我如何解决这个问题,以防止在很长的时间内跑到最快的时间? 这是我的脚本,它是 ..

使用多行选项和编码选项读取CSV

在Azure Databricks中,当我使用multiline = 'true'和encoding = 'SJIS'读取CSV文件时,似乎忽略了编码选项。 如果我使用选项Spark使用其缺省值, 但我的文件是SJIS格式。 有没有什么解决办法,有没有帮助感谢。 以下是我正在使用的代码,并且我正在使用pyspark。 df= sqlContext.read.format('csv').opt ..
发布时间:2022-04-11 15:23:59 Python

在数据库中使用PySpark在Azure DataLake中按分区覆盖策略(&A)

我在Azure环境中有一个简单的ETL进程 BLOB存储&>数据工厂&>数据创建原始数据库&>数据创建 管理>;数据仓库(主ETL)。 此项目的数据集不是很大(约100万行20列),但我希望将它们在我的DataRake中正确分区为Parquet文件。 目前,我运行一些简单的逻辑来计算每个文件应该位于我的湖中的哪个位置,而不是基于商业日历。 这些文件模糊地看起来像这样 ..
发布时间:2022-04-11 15:09:32 Python

我们可以在Azure映射数据流中进行数据转置吗?

我使用映射数据流在ADF中实现我的M查询脚本。在M查询中有两个函数,一个是Table.Pivot,另一个是Table.Transspose。 映射数据流有枢轴变换,但没有转置。 谁能告诉我,我们是否可以在Azure映射数据流中进行数据转置,或者我需要使用除映射数据流之外的其他东西(数据库、Spark SQL)? 转置会将所有行旋转为列,并将列旋转为行。 推荐答案 我设法像这样转置 ..

SPARK:UNION只能在列类型兼容的表上执行。结构<;名称,id>;!=结构<;id,名称&>;

错误: 只能对具有兼容列类型的表执行UNION。 在第二张表的第一列; 的struct(tier:string,sky ward_number:string,Skyward_Points:string)<;>struct(sky ward_number:string,tier:string,Skyward_Points:String); 此处结构字段的顺序不同,但其余一切都相同。 ..
发布时间:2022-04-02 12:49:40 其他开发