pyspark-sql相关内容

py4j.protocol.Py4JJavaError 使用选择语句在数据框中选择嵌套列时出错

我正在尝试在 spark 数据帧 (python) 中执行一个简单的任务,即通过从另一个数据帧中选择特定列和嵌套列来创建新的数据帧例如: df.printSchema()根|-- 时间戳:长(可为空 = 真)|-- 国家:结构体(可为空 = 真)||-- 代码:字符串(可为空 = 真)||-- id: long (nullable = true)||-- time_zone: string (n ..
发布时间:2021-11-14 23:08:35 其他开发

从火花数据框中选择或删除重复的列

给定一个带有重复列名称(例如 A)的 spark 数据框,我无法修改上游或源,我该如何选择、删除或重命名列之一,以便我可以检索列值? df.select('A') 显示了一个不明确的列错误,filter、drop 和 withColumnRenamed 也是如此.如何选择其中一列? 解决方案 经过数小时的研究,我发现的唯一方法是重命名列集,然后以新集作为标题创建另一个数据框. ..
发布时间:2021-11-14 23:05:05 其他开发

Spark 请求最大计数

我是 Spark 的初学者,我尝试发出一个请求,允许我检索访问量最大的网页. 我的要求如下 mostPopularWebPageDF = logDF.groupBy("webPage").agg(functions.count("webPage").alias("cntWebPage")).agg(functions.max("cntWebPage")).show() 通过这个请求,我只 ..
发布时间:2021-11-14 23:01:48 Python