apache-spark-sql相关内容
我正在尝试将数组类型的列乘以标量。此标量也是同一个PySpark数据帧中的值。 例如,我有这样的数据帧: df = sc.parallelize([([1, 2],3)]).toDF(["l","factor"]) +------+------+ | l|factor| +------+------+ |[1, 2]| 3| +------+------+ 我想要实
..
我使用的是带有Spark v2.4.1的java8 我正在尝试使用UDF来使用映射查找,如下所示 数据: +-----+-----+-----+ |code1|code2|code3| +-----+-----+-----+ |1 |7 | 5 | |2 |7 | 4 | |3 |7 | 3 | |4 |7 | 2
..
Spark解释镶木地板柱子的方式有一些问题。 我有一个具有确认架构(df.schema()方法)的Oracle源代码: root |-- LM_PERSON_ID: decimal(15,0) (nullable = true) |-- LM_BIRTHDATE: timestamp (nullable = true) |-- LM_COMM_METHOD: string
..
我正在尝试创建一个函数来检查数据的质量(nans/null等) 我在一个PySpark DataFrame上运行了以下代码 df.select([f.count(f.when((f.isnan(c) | f.col(c).isNull()), c)).alias(c) for c in cols_check]).show() 只要要检查的列是字符串/整数,我就没有问题。但是,当我检查数据
..
我觉得这里肯定漏掉了一些明显的东西,但我似乎无法在Spark SQL中动态设置变量值。 假设我有两个表tableSrc和tableBuilder,并且我正在创建tableDest。 我一直在尝试 上的变体 SET myVar FLOAT = NULL SELECT myVar = avg(myCol) FROM tableSrc; CREATE TABLE tableD
..
我有一个方案,其中我将XML数据放在DataFrame列中。 性别 更新时间 访问者 F 1574264158 <;?xml版本=&qot;1.0;编码=";utf-8 我想使用UDF将访问者列-嵌套的XML字段解析为Dataframe中的列 XML格式
..
有没有办法将数据帧行转换成列。 我有以下结构作为输入: val inputDF = Seq(("pid1","enc1", "bat"), ("pid1","enc2", ""), ("pid1","enc3", ""), ("pid3","enc1", "cat"),
..
我有以下两个方案共享的前奏代码: from pyspark.sql import SparkSession from pyspark.sql.types import * import pyspark.sql.functions as F import pandas as pd import numpy as np spark = SparkSession.builder
..
我有一个问题,我写信给Synapse Running花了这么多时间(>;20个小时)。我可以做些什么来改进我的需要写入Synapse的数据库?我的资源表来自Azure Synase上的事实数据表(包含151百万行)。我假设我的脚本不适合在数据库上运行,而且我还假设它是由垃圾收集造成的,这让我的工作停滞不前。但是,我如何解决这个问题,以防止在很长的时间内跑到最快的时间? 这是我的脚本,它是
..
在此命令(taken from)中,replaceWhere是否会导致删除记录? 命令中提到的日期范围有1000行。新的东风只有100家。这是否会导致删除900条记录? df.write .format("delta") .mode("overwrite") .option("replaceWhere", "date >= '2017-01-01' AND date
..
我是用PySpark编程的初学者。我在CSV文件中有以下数据,该文件正在被读入Spark Dataframe,并且我希望从一个小数据集开始生成一个大型数据集。 # read the csv file in a spark dataframe df = (spark.read .option("inferSchema", "true") .option("heade
..
我有一个Spark数据帧,其中一个值丢失,一个值错误。 from pyspark.sql import Row from pyspark.sql.types import StringType, DoubleType, StructType, StructField # fruit sales data data = [Row(id='01', fruit='Apple', qty=5.0)
..
在Azure Databricks中,当我使用multiline = 'true'和encoding = 'SJIS'读取CSV文件时,似乎忽略了编码选项。 如果我使用选项Spark使用其缺省值, 但我的文件是SJIS格式。 有没有什么解决办法,有没有帮助感谢。 以下是我正在使用的代码,并且我正在使用pyspark。 df= sqlContext.read.format('csv').opt
..
也许这很愚蠢,我是一名Microsoft SQL/C#开发人员,以前从未真正使用过任何其他IDE/编写的Java/Scala。 我正在将一些Azure SQL查询迁移到Azure数据库解决方案。 似乎没有对应的TSQL DATEDIFF_BIG函数(https://docs.microsoft.com/en-us/sql/t-sql/functions/datediff-transact-s
..
我在Azure环境中有一个简单的ETL进程 BLOB存储&>数据工厂&>数据创建原始数据库&>数据创建 管理>;数据仓库(主ETL)。 此项目的数据集不是很大(约100万行20列),但我希望将它们在我的DataRake中正确分区为Parquet文件。 目前,我运行一些简单的逻辑来计算每个文件应该位于我的湖中的哪个位置,而不是基于商业日历。 这些文件模糊地看起来像这样
..
我正在使用Databricks,并试图在同一个Scala笔记本中将一个数据帧从Scala传递到Python。我使用以下命令将数据帧从Python传递给Spark: %python python_df.registerTempTable("temp_table") val scalaDF = table("temp_table") 如何反向执行相同的操作?非常感谢!! 推荐答案
..
我在Spark SQLDataFrame中有两列,每一列中的每个条目都是一个字符串数组。 val ngramDataFrame = Seq( (Seq("curious", "bought", "20"), Seq("iwa", "was", "asj")) ).toDF("filtered_words", "ngrams_array") 我想合并每一行中的数组,以形成新列中的单个
..
我使用映射数据流在ADF中实现我的M查询脚本。在M查询中有两个函数,一个是Table.Pivot,另一个是Table.Transspose。 映射数据流有枢轴变换,但没有转置。 谁能告诉我,我们是否可以在Azure映射数据流中进行数据转置,或者我需要使用除映射数据流之外的其他东西(数据库、Spark SQL)? 转置会将所有行旋转为列,并将列旋转为行。 推荐答案 我设法像这样转置
..
错误: 只能对具有兼容列类型的表执行UNION。 在第二张表的第一列; 的struct(tier:string,sky ward_number:string,Skyward_Points:string)<;>struct(sky ward_number:string,tier:string,Skyward_Points:String); 此处结构字段的顺序不同,但其余一切都相同。
..
在我的方案中,我分解一个数组列,以便每行有一条记录,这样我就可以执行联接,然后将这些分解的列重新组合在一起 +--------------+-------+------------------------+ | body | ID | array_column | +--------------+-------+-------------------
..