spark-dataframe相关内容

将行值转换为火花数据框中的列数组

我正在处理 spark 数据框,我需要对列进行分组,并将分组行的列值转换为元素数组作为新列.示例: 输入:员工 |地址------------------迈克尔 |纽约迈克尔 |新泽西州输出:员工 |地址------------------迈克尔 |(纽约,新泽西) 非常感谢任何帮助. 解决方案 这里有一个替代解决方案我已将数据帧转换为用于转换的 rdd,并使用 sqlContext. ..
发布时间:2021-11-14 22:36:30 其他开发

Json 文件到 pyspark 数据框

我正在尝试在 spark (pyspark) 环境中使用 JSON 文件. 问题:无法在 Pyspark Dataframe 中将 JSON 转换为预期格式 第一个输入数据集: https://health.data.ny.gov/api/views/cnih-y5dw/rows.json 在这个文件中,元数据是在文件的开头定义的,带有“meta"标签.然后是带有“data ..
发布时间:2021-11-14 22:35:58 Python

Spark Java:如何将数据从 HTTP 源移动到 Couchbase 接收器?

我在 Web 服务器上有一个 .gz 文件,我想以流式方式使用该文件并将数据插入 Couchbase..gz 文件中只有一个文件,每行包含一个 JSON 对象. 由于 Spark 没有 HTTP 接收器,所以我自己写了一个(如下所示).我正在使用 Couchbase Spark 连接器 进行插入.但是,在运行时,该作业实际上并未插入任何内容.我怀疑这是由于我对 Spark 缺乏经验并且不知道 ..

在 Spark Streaming 中更改输出文件名

我正在运行一个 Spark 作业,就逻辑而言,它的性能非常好.但是,当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时,我的输出文件的名称采用 part-00000、part-00001 等格式.有没有办法改变输出文件名? 谢谢. 解决方案 在 Spark 中,您可以使用 saveAsNewAPIHadoopFile 并将 hadoop 配置中的 ma​​pred ..
发布时间:2021-11-14 22:33:30 其他开发

SparkContext.getOrCreate() 目的

SparkContext 类中的 getOrCreate 方法的目的是什么?我不明白我们什么时候应该使用这种方法. 如果我有 2 个使用 spark-submit 运行的 spark 应用程序,并且在主方法中我使用 SparkContext.getOrCreate 实例化了 spark 上下文,则两个应用程序都将具有相同的上下文? 或者目的更简单,唯一的目的是当我创建一个spark应用 ..

根据列值的变化对pyspark数据框进行分区

我在 pyspark 中有一个数据框.假设有一些列 a,b,c...我想随着列值的变化将数据分组.说 A B1 次1 年0 x0 年0 x1 年1 次1 年 将有 3 个组为 (1x,1y),(0x,0y,0x),(1y,1x,1y)以及对应的行数据 解决方案 如果我理解正确,您希望在 A 列每次更改值时创建一个不同的组. 首先,我们将创建一个单调递增的 id 以保持行序不变: ..
发布时间:2021-11-14 22:32:28 Python