rdd 第5页 - IT屋-程序员软件开发技术分享社区

RDD API 与 UDF 与 DataFrame API 混合的性能影响

(特定于 Scala 的问题.) 虽然 Spark 文档鼓励在可能的情况下使用 DataFrame API，但如果 DataFrame API 不足，选择通常是回退到 RDD API 或使用 UDF.这两种替代方案之间是否存在固有的性能差异? RDD 和 UDF 的相似之处在于它们都不能从 Catalyst 和 Tungsten 优化中受益.是否有任何其他开销，如果有，两种方法之间是否 ..

发布时间：2021-11-14 21:52:52 scala performance apache-spark apache-spark-sql rdd 其他开发

Spark 数据框将多行转换为列

我是一个新手，我想在源数据帧下面转换(从 JSON 文件加载): +--+-----+-----+|A |计数|主要|+----+-----+-----+|一个|1|米1||一个|1|平方米||一个|2|立方米||一个|3|米4||乙|4|米1||乙|1|平方米||乙|2|立方米||| |3|米1||| |4|立方米||| |5|米4||d|6|米1||d|1|平方米||d|2|立方米||d|3 ..

发布时间：2021-11-14 21:51:45 python apache-spark dataframe apache-spark-sql rdd Python

Spark 数据集聚合类似于 RDD 聚合(零)(累加，组合器)

RDD 有一个非常有用的方法聚合，它允许累积一些零值并跨分区组合.有没有办法用 Dataset[T] 做到这一点.就我通过 Scala 文档看到的规范而言，实际上没有什么能够做到这一点.甚至reduce 方法也只允许对T 作为两个参数的二元运算进行操作.有什么理由吗?如果有什么能够做同样的事情吗? 非常感谢！ VK 解决方案有两个不同的类可用于在 Dataset API 中实 ..

发布时间：2021-11-14 21:48:49 scala apache-spark apache-spark-sql rdd apache-spark-dataset 其他开发

RDD 到 LabeledPoint 的转换

如果我有一个大约有 500 列和 2 亿行的 RDD，并且 RDD.columns.indexOf("target", 0) 显示 Int = 77我的目标因变量在第 77 列.但我对如何选择所需的(部分)列作为特征没有足够的知识(比如我想要从 23 到 59、111 到 357、399 到 489 的列).我想知道我是否可以申请这样的: val data = rdd.map(col => ne ..

发布时间：2021-11-14 21:47:01 scala apache-spark apache-spark-sql rdd apache-spark-mllib 其他开发

将时间序列 pySpark 数据帧拆分为 test &不使用随机拆分训练

我有一个 spark 时间序列数据框.我想把它分成 80-20 个(训练测试).由于这是一个时间序列数据框，我不想进行随机拆分.我该怎么做才能将第一个数据帧传递到训练中，然后将第二个数据帧传递到测试中? 解决方案您可以使用pyspark.sql.functions.percent_rank() 以获取按时间戳/日期列排序的 DataFrame 的百分位排名.然后选择所有 rank 的列作 ..

发布时间：2021-11-14 21:45:23 python pyspark apache-spark-sql rdd Python

将 RDD 分区写入其自己目录中的单个镶木地板文件

我正在努力解决我想将每个 RDD 分区写入具有自己的目录的单独镶木地板文件的步骤.示例将是: data_file.parquet 这种格式的优点是我可以直接在 SparkSQL 中使用它作为列，我不必在实际文件中重复这些数据.这将是访问特定分区的好方法，而无需在其他地方存储单独的分区元数据. 作为前面的步骤，我从大量 gzi ..

发布时间：2021-11-14 21:42:51 scala apache-spark apache-spark-sql rdd parquet 其他开发

使用 scala 在 Apache spark 中连接不同 RDD 的数据集

有没有办法在 spark 中连接两个不同 RDD 的数据集? 要求是 - 我使用 scala 创建了两个具有相同列名的中间 RDD，需要组合这两个 RDD 的这些结果并缓存结果以访问 UI.我如何在此处合并数据集? RDD 的类型为 spark.sql.SchemaRDD 解决方案我想你正在寻找 RDD.union val rddPart1 = ???val rddPart ..

发布时间：2021-11-14 21:41:02 scala apache-spark apache-spark-sql distributed-computing rdd 其他开发

Apache Spark 中的 DataFrame 相等性

假设 df1 和 df2 是 Apache Spark 中的两个 DataFrame，使用两种不同的机制计算，例如 Spark SQL 与 Scala/Java/Python API. 是否有一种惯用的方法来确定两个数据框是否相等(相等，同构)，其中等价性取决于数据(每行的列名和列值)是否相同，除了行和行的排序之外列? 提出这个问题的动机是，通常有很多方法可以计算一些大数据结果，每种方 ..

发布时间：2021-11-14 21:39:38 scala apache-spark dataframe apache-spark-sql rdd 其他开发

使用/不使用 Spark SQL 连接两个普通 RDD

我需要在一列/多列上加入两个普通的RDD.逻辑上这个操作相当于两个表的数据库join操作.我想知道这是否只能通过 Spark SQL 或其他方法来实现. 作为一个具体的例子，考虑RDD r1 主键 ITEM_ID: (ITEM_ID、ITEM_NAME、ITEM_UNIT、COMPANY_ID) 和带有主键COMPANY_ID的RDD r2: (COMPANY_ID、COMPANY_N ..

发布时间：2021-11-14 21:39:09 scala join apache-spark rdd apache-spark-sql 其他开发

Spark Java Map 函数被执行两次

我有上面的代码作为 Spark 驱动程序，当我执行我的程序时，它可以正常将所需的数据保存为 Parquet 文件. String indexFile = "index.txt";JavaRDDindexData = sc.textFile(indexFile).cache();JavaRDDjsonStringRDD = indexData.map(new Function() {@覆盖公共字符 ..

发布时间：2021-11-14 21:37:39 java apache-spark apache-spark-sql rdd Java开发

如何强制 Spark 内联评估 DataFrame 操作

根据 Spark RDD 文档: Spark 中的所有转换都是惰性的，因为它们不会立即计算结果...这种设计使 Spark 能够更有效地运行. 有时我需要对我的数据帧进行某些操作现在和现在.但是因为数据帧操作是“懒惰评估"(如上所述)，当我在代码中编写这些操作时，几乎不能保证 Spark 会实际内联执行这些操作其余的代码.例如: val someDataFrame : DataFra ..

发布时间：2021-11-14 21:32:08 apache-spark lazy-evaluation distributed-computing rdd spark-dataframe 其他开发

Apache Spark 处理 case 语句

我正在处理将 SQL 代码转换为 PySpark 代码并遇到一些 SQL 语句.我不知道如何处理 pyspark 中的案例陈述?我打算创建一个 RDD，然后使用 rdd.map，然后做一些逻辑检查.这是正确的方法吗?请帮忙！基本上我需要遍历 RDD 或 DF 中的每一行，并根据一些逻辑我需要编辑其中一个列值. 案例when (e."a" Like 'a%' 或 e."b" Like ' ..

发布时间：2021-11-14 21:29:50 apache-spark pyspark spark-dataframe rdd pyspark-sql 其他开发

Spark为数据框连接指定多列条件

如何在连接两个数据框时给出更多列条件.例如，我想运行以下内容: val Lead_all = Leads.join(Utm_Master,Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") ==Utm_Master.columns("LeadSource","Utm_Source","Utm_Med ..

发布时间：2021-11-14 21:25:40 apache-spark apache-spark-sql rdd 其他开发

Spark parquet 分区:大量文件

我正在尝试利用火花分区.我正在尝试做类似的事情 data.write.partitionBy("key").parquet("/location") 这里的问题是每个分区都会创建大量的镶木地板文件，如果我尝试从根目录读取，会导致读取速度变慢. 为了避免我尝试过 data.coalese(numPart).write.partitionBy("key").parquet("/locati ..

发布时间：2021-11-14 21:22:18 apache-spark spark-dataframe rdd apache-spark-2.0 bigdata 其他开发

'PipelinedRDD' 对象在 PySpark 中没有属性 'toDF'

我正在尝试加载 SVM 文件并将其转换为 DataFrame，以便我可以使用 Spark 的 ML 模块(Pipeline ML).我刚刚在 Ubuntu 14.04 上安装了新的 Spark 1.5.0(未配置 spark-env.sh). 我的 my_script.py 是: from pyspark.mllib.util import MLUtils从 pyspark 导入 Spa ..

发布时间：2021-11-14 21:15:53 python apache-spark pyspark apache-spark-sql rdd Python

Spark中DataFrame、Dataset、RDD的区别

我只是想知道 RDD 和 DataFrame 之间有什么区别 (Spark 2.0.0 DataFrame 只是 Dataset 的类型别名[行]) 在 Apache Spark 中? 你能把一个转换成另一个吗? 解决方案 A DataFrame is defined with a google search for "DataFrame definition": 一个数据框是 ..

发布时间：2021-11-14 21:14:06 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset 其他开发

如何在spark中将rdd对象转换为数据帧

如何将 RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) 转换为数据帧 org.apache.spark.sql.DataFrame.我使用 .rdd 将数据帧转换为 rdd.处理后我希望它回到数据框中.我该怎么做? 解决方案 SparkSession 有许多 createDataFrame 方法，它们创建一个 DataFra ..

发布时间：2021-11-14 21:14:00 scala apache-spark apache-spark-sql rdd 其他开发

Apache Spark 的 RDD[Vector] 不变性问题

我知道 RDD 是不可变的，因此它们的值不能改变，但我看到以下行为: 我为 FuzzyCMeans (https://github.com/salexln/FinalProject_FCM) 算法编写了一个实现现在我正在测试它，所以我运行以下示例: import org.apache.spark.mllib.clustering.FuzzyCMeans导入 org.apache.spark ..

发布时间：2021-11-14 21:12:50 scala apache-spark rdd apache-spark-mllib 其他开发

我应该如何将 org.apache.spark.ml.linalg.Vector 的 RDD 转换为数据集?

我正在努力理解 RDD、DataSet 和 DataFrame 之间的转换是如何工作的.我对 Spark 很陌生，每次我需要从数据模型传递到另一个数据模型(尤其是从 RDD 到数据集和数据帧)时，我都会卡住.谁能给我解释一下正确的做法? 举个例子，现在我有一个 RDD[org.apache.spark.ml.linalg.Vector] 并且我需要将它传递给我的机器学习算法，例如一个 KMe ..

发布时间：2021-11-14 21:10:07 apache-spark apache-spark-sql rdd apache-spark-mllib apache-spark-dataset 其他开发

格式化 Spark ML 的数据

我是 Spark 和 Spark ML 的新手.我使用函数 KMeansDataGenerator.generateKMeansRDD 生成了一些数据，但是在格式化这些数据时我失败了，以便它可以被 ML 算法使用(这里是 K-Means). 错误是线程“main"中的异常 java.lang.IllegalArgumentException: 不支持数据类型 ArrayType(Do ..

发布时间：2021-11-14 21:08:36 apache-spark apache-spark-sql rdd apache-spark-mllib apache-spark-ml 其他开发

rdd相关内容