pyspark-dataframes相关内容

pySpark 映射多列

我需要能够使用多列比较两个数据框. pySpark 尝试 # 从字典中的引用表中获取 PrimaryLookupAttributeValue 值,以将它们与 df1 进行比较.primaryAttributeValue_List = [ p.PrimaryLookupAttributeValue for p in AttributeLookup.select('PrimaryLookupA ..
发布时间:2021-12-22 21:15:39 其他开发

如何用逗号分隔存储 JSON 数据框

我需要将数据帧的记录写入 json 文件.如果我将数据帧写入它存储的文件中,例如 {"a":1} {"b":2},我想像这样编写数据帧 [{"a":1} ,{"b":2}].你能帮我么.提前致谢. 解决方案 使用 to_json 函数创建json 对象数组 然后使用 .saveAsTextFile 保存 json 对象. 示例: #sample 数据框df=spark.create ..

根据pyspark中的现有列值创建新列

我有一个数据框,其中有一个包含机场名称的现有列,我想用它们的缩写创建另一个列. 例如,我有一个包含以下值的现有列: 西雅图塔科马机场,华盛顿州美国佛罗里达州迈阿密国际机场美国加利福尼亚州旧金山国际机场美国佛罗里达州迈阿密国际机场美国佛罗里达州迈阿密国际机场美国加利福尼亚州旧金山国际机场美国西雅图塔科马机场 我想创建一个带有相关缩写的新列,例如 SEA、MIA 和 SFO.我想我可以使用 ..
发布时间:2021-11-14 23:20:29 其他开发

Pyspark 多连接列 <>行值:减少操作

我有一个包含 3 列的主表“表 1"(如下所示).表 2.1、3.1 &4.1 适用于表 1 中的 3 个唯一日期,需要填写在“点 1"列中.类似地,表 2.2、3.2 &4.2 适用于表 1 中相同的 3 个唯一日期,需要填充到“点 2"列中. 目前的方法: df1 = spark.table(“Table1")df2_1 = spark.table(“table2.1")df2_1 = ..
发布时间:2021-11-14 23:19:02 其他开发

将宽数据帧转置为长数据帧

我有一个数据框看起来像: Region, 2000Q1, 2000Q2, 2000Q3, ...A, 1,2,3,... 我想通过“区域"将这张宽表转换为长表.所以最终产品将如下所示: 区域、时间、值一、2000Q1,1一、2000Q2、2一、2000Q3、3一、2000Q4、4.... 原始表的列数组非常广泛,但聚合级别始终为区域,其余列设置为转置. 你知道一个简单的方法或函数来做 ..
发布时间:2021-11-14 23:14:12 其他开发