spark-dataframe相关内容

PySpark 如何将 CSV 读入 Dataframe,并对其进行操作

我对 pyspark 很陌生,我正在尝试使用它来处理一个保存为 csv 文件的大型数据集.我想将 CSV 文件读入 spark 数据框,删除一些列,然后添加新列.我该怎么做? 我无法将此数据放入数据框中.这是我目前所拥有的精简版: def make_dataframe(data_portion, schema, sql):字段 = data_portion.split(",")返回 sql ..

spark数据帧中过滤器的多种条件

我有一个包含四个字段的数据框.字段名称之一是状态,我试图在 .filter 中使用 OR 条件作为数据帧.我尝试了以下查询,但没有成功. df2 = df1.filter(("Status=2") || ("Status =3"))df2 = df1.filter("状态=2" || "状态=3") 有没有人用过这个.我在这里看到了一个关于堆栈溢出的类似问题.他们使用以下代码来使用 OR 条件 ..
发布时间:2021-12-31 08:36:06 其他开发

Spark UDF 如何将 Map 转换为列

我正在使用 Apache Zeppelin 笔记本.所以spark基本上是在交互模式下运行的.我不能在这里使用闭包变量,因为 zeppelin 抛出 org.apache.spark.SparkException: Task not serializable 因为它试图序列化整个段落(更大的闭包). 所以如果没有闭包方法,我唯一的选择是将地图作为一列传递给 UDF. 我有一张从 par ..
发布时间:2021-11-14 23:54:24 其他开发

更改数据帧中的列值 spark scala

这就是我的数据框现在的样子 +------------+|日期 |+------------+|19931001||19930404||19930603||19930805|+------------+ 我正在尝试将此字符串值重新格式化为 yyyy-mm-dd hh:mm:ss.fff 并将其保留为字符串而不是日期类型或时间戳. 我将如何使用 withColumn 方法做到这一点? ..
发布时间:2021-11-14 23:32:31 其他开发

无法读取,稍后在 Apache Spark 中查询文本文件

所以我正在尝试实现示例 Spark 编程示例 使用我们提供的数据集.它是一个由 | 分隔的文件.但是,即使按照给定的说明进行操作,它也会引发以下错误. 我可以看到它无法将一个实例的对象“转换"到另一个实例中,关于如何处理这种情况的任何建议. Caused by: java.lang.ClassCastException: 无法将 scala.collection.immutable.Lis ..
发布时间:2021-11-14 23:32:10 其他开发

Spark - 范围、数据帧和内存管理

我很好奇 scope 如何与 Data Frame 和 Spark 配合使用.在下面的例子中,我有一个文件列表,每个文件独立加载到一个数据帧中,执行一些操作,然后,我们将 dfOutput 写入磁盘. val files = getListOfFiles("outputs/emailsS​​plit")对于(文件 循环完成后,for 循环 中的每个数据帧是被丢弃,还是留在内存中? 如果它们 ..
发布时间:2021-11-14 23:31:11 其他开发

为什么 pyspark 选择未广播的变量?

我正在使用 pyspark 来分析数据集,我有点惊讶为什么即使我使用的是未广播的变量,以下代码仍能正常工作.> 有问题的变量是 video,它在函数 filter 中使用,在 join 之后. seed = random.randint(0,999)# df 是一个数据框# 视频只是一个随机采样的元素视频 = df.sample(False,0.001,seed).head()# 只是一个py ..

如何从 Spark 中的数据帧创建 EdgeRDD

我在 spark 中有一个数据框.每行代表一个人,我想检索他们之间可能的联系.拥有链接的规则是,对于每个可能的对,如果它们具有相同的 prop1:String 并且 prop2:Int 的绝对差小于5 则链接存在.我试图了解使用数据框完成此任务的最佳方法. 我正在尝试检索索引的 RDD: val idusers = people.select("ID").rdd.map(r => r(0) ..
发布时间:2021-11-14 23:31:02 其他开发