rdd相关内容

Apache Spark 基于另一行更新 RDD 或数据集中的一行

我想弄清楚如何根据另一行更新某些行. 例如,我有一些类似的数据 Id |用户名 |评分 |城市--------------------------------1、飞利浦、2.0、蒙特利尔、...2, 约翰, 4.0, 蒙特利尔, ...3、查尔斯、2.0、德克萨斯、... 我想将同一城市的用户更新为相同的 groupId(1 或 2) Id |用户名 |评分 |城市---------- ..

Spark RDD 中的多个分区

所以我试图在 Play/Scala 项目中使用 Spark 从 MySQL 数据库中获取数据.由于我尝试接收的行数很大,我的目标是从 spark rdd 中获取迭代器.这是 Spark 上下文和配置... 私有 val 配置 = new SparkConf().setAppName("报告").setMaster("本地[*]").set("spark.executor.memory", "2 ..
发布时间:2021-11-14 23:09:44 其他开发

我应该如何将 org.apache.spark.ml.linalg.Vector 的 RDD 转换为数据集?

我正在努力理解 RDD、DataSet 和 DataFrame 之间的转换是如何工作的.我对 Spark 很陌生,每次我需要从数据模型传递到另一个数据模型(尤其是从 RDD 到数据集和数据帧)时,我都会卡住.谁能给我解释一下正确的做法? 举个例子,现在我有一个 RDD[org.apache.spark.ml.linalg.Vector] 并且我需要将它传递给我的机器学习算法,例如一个 KMe ..

在 Apache Spark 中,如何使 RDD/DataFrame 操作变得懒惰?

假设我想编写一个函数 foo 来转换 DataFrame: object Foo {def foo(来源:DataFrame):DataFrame = {...具有停止条件的复杂迭代算法...}} 由于foo的实现有很多“Action"(collect、reduce等),调用foo会立即触发代价高昂的执行. 这不是一个大问题,但是由于 foo 只将一个 DataFrame 转换为另一个, ..
发布时间:2021-11-14 23:01:23 其他开发

pyspark 中的 RDD 到 DataFrame(来自 rdd 的第一个元素的列)

我从 csv 文件创建了一个 rdd,第一行是该 csv 文件中的标题行.现在我想从那个 rdd 创建数据框并保留 rdd 的第一个元素的列. 问题是我能够创建数据框和来自 rdd.first() 的列,但是创建的数据框的第一行作为标题本身.如何删除? lines = sc.textFile('/path/data.csv')rdd = lines.map(lambda x: x.spli ..
发布时间:2021-11-14 23:00:07 其他开发

Pyspark Dataframe 从列中获取唯一元素,字符串作为元素列表

我有一个数据框(它是通过从 azure 中的多个 blob 加载创建的),其中有一列是 ID 列表.现在,我想要整个列中的唯一 ID 列表: 这是一个例子 - df -|列 1 |col2 |col3 ||"一个" |"b" |"[q,r]"||"c" |"f" |"[s,r]"| 这是我预期的回复: resp = [q, r, s] 知道怎么去吗? 我目前的方法是将 col3 ..
发布时间:2021-11-14 22:48:57 Python