pyspark-sql相关内容

使用 PySpark 从表中识别分区键列

我需要帮助来使用 PySpark 查找 Hive 表的唯一分区列名称.该表可能有多个分区列,最好输出应返回 Hive 表的分区列列表. 如果结果还包括分区列的数据类型,那就太好了. 任何建议都会有所帮助. 解决方案 可以使用desc完成,如下图: df=spark.sql("""desc test_dev_db.partition_date_table""")>>>df.sh ..
发布时间:2021-11-14 23:15:05 其他开发

Spark:并行创建多个数据帧

我目前正在根据 ID 列表生成数据帧 - 基于一个 ID 的每个查询都会返回一个非常大型 PostgreSQL 表的可管理子集.然后我根据需要写出的文件结构对该输出进行分区.问题是我达到了速度限制,而且我的执行者资源利用率严重不足. 我不确定这是否是重新思考我的架构的问题,或者是否有一些简单的方法可以解决这个问题,但基本上我想获得更多的任务并行化,但未能让我所有的 16 个执行者都忙同时尝试 ..
发布时间:2021-11-14 23:15:02 其他开发

PySpark 输出文件数

我是 Spark 新手.我有一个简单的 pyspark 脚本.它读取一个 json 文件,将其展平并将其作为 parquet 压缩文件写入 S3 位置. 读取和转换步骤运行得非常快,并使用了 50 个执行程序(我在 conf 中设置).但写入阶段耗时较长,只写入一个大文件(480MB). 保存的文件数量是如何决定的?写操作可以以某种方式加速吗? 谢谢,拉姆. 解决方案 输 ..
发布时间:2021-11-14 23:14:46 其他开发

PySpark 尝试将上一个字段的架构应​​用于下一个字段

PySpark 有这个奇怪的问题.它似乎正在尝试将前一个字段的架构应​​用于下一个字段,因为它正在处理. 我能想到的最简单的测试用例: %pyspark从 pyspark.sql.types 导入(日期类型,结构类型,结构域,字符串类型,)从日期时间导入日期从 pyspark.sql 导入行架构 = 结构类型([StructField("date", DateType(), True),S ..
发布时间:2021-11-14 23:14:28 其他开发

动态定义结构的列值

我有两个嵌套数组,一个是字符串,另一个是浮点数.我想基本上把它压缩起来,每行有一个 (value, var) 组合.我试图只用一个数据框来做到这一点,而不必求助于 rdds 或 udfs,认为这会更干净、更快. 我可以将值数组、每行变量转换为一个值、变量、每行 1 个的结构,但是由于我的数组大小不同,我必须在不同的范围内运行我的数组理解.所以我想我可以在列中指定长度并使用它.但是因为我将使用 ..
发布时间:2021-11-14 23:12:26 其他开发

如何在 PySpark collect_list 中维护排序顺序并收集多个列表

我想维护日期排序顺序,对多列使用 collect_list,所有列都具有相同的日期顺序.我将在同一个数据框中需要它们,以便我可以利用它们来创建时间序列模型输入.以下是“train_data"的示例: 我正在使用带有 PartitionBy 的窗口,以通过每个 Syscode_Stn 的 tuning_evnt_start_dt 来确保排序顺序.我可以使用以下代码创建一列: from pys ..
发布时间:2021-11-14 23:11:27 其他开发

pySpark:java.lang.UnsupportedOperationException:未实现的类型:StringType

在读取不一致的模式编写的镶木地板文件组时,我们在模式合并方面遇到了问题.在切换到手动指定架构时,我收到以下错误.任何指针都会有所帮助. java.lang.UnsupportedOperationException:未实现的类型:StringType在 org.apache.spark.sql.execution.datasources.parquet.VectorizedColumnRea ..
发布时间:2021-11-14 23:10:47 其他开发

如何在pyspark中拆除CLOB?

我从 Oracle 中提取了数据,并且该表中有一个带有 CLOB DataType 的列,我将其设为 String 以获取 HDFS 中的数据.现在我必须拆除 CLOB 数据并在 Hive 中为其创建一个单独的表. 我有 txt 格式的 HDFS 文件.我可以分离 CLOB 数据并希望为 CLOB 制作 DataFrame CLOB 采用以下格式: [name] Bob [年龄] 2 ..

pySpark:java.lang.UnsupportedOperationException:未实现的类型:StringType

在读取不一致的模式编写的镶木地板文件组时,我们在模式合并方面遇到了问题.在切换到手动指定架构时,我收到以下错误.任何指针都会有所帮助. java.lang.UnsupportedOperationException:未实现的类型:StringType在 org.apache.spark.sql.execution.datasources.parquet.VectorizedColumnRea ..
发布时间:2021-11-14 23:10:22 其他开发