rdd相关内容

RDD API 与 UDF 与 DataFrame API 混合的性能影响

(特定于 Scala 的问题.) 虽然 Spark 文档鼓励在可能的情况下使用 DataFrame API,但如果 DataFrame API 不足,选择通常是回退到 RDD API 或使用 UDF.这两种替代方案之间是否存在固有的性能差异? RDD 和 UDF 的相似之处在于它们都不能从 Catalyst 和 Tungsten 优化中受益.是否有任何其他开销,如果有,两种方法之间是否 ..
发布时间:2021-11-14 21:52:52 其他开发

Spark 数据框将多行转换为列

我是一个新手,我想在源数据帧下面转换(从 JSON 文件加载): +--+-----+-----+|A |计数|主要|+----+-----+-----+|一个|1|米1||一个|1|平方米||一个|2|立方米||一个|3|米4||乙|4|米1||乙|1|平方米||乙|2|立方米||| |3|米1||| |4|立方米||| |5|米4||d|6|米1||d|1|平方米||d|2|立方米||d|3 ..
发布时间:2021-11-14 21:51:45 Python

Spark 数据集聚合类似于 RDD 聚合(零)(累加,组合器)

RDD 有一个非常有用的方法聚合,它允许累积一些零值并跨分区组合.有没有办法用 Dataset[T] 做到这一点.就我通过 Scala 文档看到的规范而言,实际上没有什么能够做到这一点.甚至reduce 方法也只允许对T 作为两个参数的二元运算进行操作.有什么理由吗?如果有什么能够做同样的事情吗? 非常感谢! VK 解决方案 有两个不同的类可用于在 Dataset API 中实 ..

RDD 到 LabeledPoint 的转换

如果我有一个大约有 500 列和 2 亿行的 RDD,并且 RDD.columns.indexOf("target", 0) 显示 Int = 77我的目标因变量在第 77 列.但我对如何选择所需的(部分)列作为特征没有足够的知识(比如我想要从 23 到 59、111 到 357、399 到 489 的列).我想知道我是否可以申请这样的: val data = rdd.map(col => ne ..

将时间序列 pySpark 数据帧拆分为 test &不使用随机拆分训练

我有一个 spark 时间序列数据框.我想把它分成 80-20 个(训练测试).由于这是一个时间序列数据框,我不想进行随机拆分.我该怎么做才能将第一个数据帧传递到训练中,然后将第二个数据帧传递到测试中? 解决方案 您可以使用pyspark.sql.functions.percent_rank() 以获取按时间戳/日期列排序的 DataFrame 的百分位排名.然后选择所有 rank 的列作 ..
发布时间:2021-11-14 21:45:23 Python

将 RDD 分区写入其自己目录中的单个镶木地板文件

我正在努力解决我想将每个 RDD 分区写入具有自己的目录的单独镶木地板文件的步骤.示例将是: data_file.parquet 这种格式的优点是我可以直接在 SparkSQL 中使用它作为列,我不必在实际文件中重复这些数据.这将是访问特定分区的好方法,而无需在其他地方存储单独的分区元数据. 作为前面的步骤,我从大量 gzi ..
发布时间:2021-11-14 21:42:51 其他开发

使用 scala 在 Apache spark 中连接不同 RDD 的数据集

有没有办法在 spark 中连接两个不同 RDD 的数据集? 要求是 - 我使用 scala 创建了两个具有相同列名的中间 RDD,需要组合这两个 RDD 的这些结果并缓存结果以访问 UI.我如何在此处合并数据集? RDD 的类型为 spark.sql.SchemaRDD 解决方案 我想你正在寻找 RDD.union val rddPart1 = ???val rddPart ..

Apache Spark 中的 DataFrame 相等性

假设 df1 和 df2 是 Apache Spark 中的两个 DataFrame,使用两种不同的机制计算,例如 Spark SQL 与 Scala/Java/Python API. 是否有一种惯用的方法来确定两个数据框是否相等(相等,同构),其中等价性取决于数据(每行的列名和列值)是否相同,除了行和行的排序之外列? 提出这个问题的动机是,通常有很多方法可以计算一些大数据结果,每种方 ..
发布时间:2021-11-14 21:39:38 其他开发

Spark Java Map 函数被执行两次

我有上面的代码作为 Spark 驱动程序,当我执行我的程序时,它可以正常将所需的数据保存为 Parquet 文件. String indexFile = "index.txt";JavaRDDindexData = sc.textFile(indexFile).cache();JavaRDDjsonStringRDD = indexData.map(new Function() {@覆盖公共字符 ..
发布时间:2021-11-14 21:37:39 Java开发

如何强制 Spark 内联评估 DataFrame 操作

根据 Spark RDD 文档: Spark 中的所有转换都是惰性的,因为它们不会立即计算结果...这种设计使 Spark 能够更有效地运行. 有时我需要对我的数据帧进行某些操作现在和现在.但是因为数据帧操作是“懒惰评估"(如上所述),当我在代码中编写这些操作时,几乎不能保证 Spark 会实际内联执行这些操作其余的代码.例如: val someDataFrame : DataFra ..

Apache Spark 处理 case 语句

我正在处理将 SQL 代码转换为 PySpark 代码并遇到一些 SQL 语句.我不知道如何处理 pyspark 中的案例陈述?我打算创建一个 RDD,然后使用 rdd.map,然后做一些逻辑检查.这是正确的方法吗?请帮忙! 基本上我需要遍历 RDD 或 DF 中的每一行,并根据一些逻辑我需要编辑其中一个列值. 案例when (e."a" Like 'a%' 或 e."b" Like ' ..
发布时间:2021-11-14 21:29:50 其他开发

我应该如何将 org.apache.spark.ml.linalg.Vector 的 RDD 转换为数据集?

我正在努力理解 RDD、DataSet 和 DataFrame 之间的转换是如何工作的.我对 Spark 很陌生,每次我需要从数据模型传递到另一个数据模型(尤其是从 RDD 到数据集和数据帧)时,我都会卡住.谁能给我解释一下正确的做法? 举个例子,现在我有一个 RDD[org.apache.spark.ml.linalg.Vector] 并且我需要将它传递给我的机器学习算法,例如一个 KMe ..