rdd 第3页 - IT屋-程序员软件开发技术分享社区

使用 Scala 将 RDD 转换为 Spark 中的 DataFrame

我有 textRDD: org.apache.spark.rdd.RDD[(String, String)] 我想将其转换为 DataFrame.列对应每页(行)的标题和内容. 解决方案使用 toDF()，如果有列名，请提供. val textDF = textRDD.toDF("title": String, "content": String)textDF:org.apach ..

发布时间：2021-11-14 23:18:41 scala apache-spark type-conversion rdd spark-dataframe 其他开发

Apache Spark 基于另一行更新 RDD 或数据集中的一行

我想弄清楚如何根据另一行更新某些行. 例如，我有一些类似的数据 Id |用户名 |评分 |城市--------------------------------1、飞利浦、2.0、蒙特利尔、...2, 约翰, 4.0, 蒙特利尔, ...3、查尔斯、2.0、德克萨斯、... 我想将同一城市的用户更新为相同的 groupId(1 或 2) Id |用户名 |评分 |城市---------- ..

发布时间：2021-11-14 23:16:26 scala apache-spark spark-dataframe rdd apache-spark-dataset 其他开发

使用 Scala 将 RDD 转换为 Spark 中的 DataFrame

我有 textRDD: org.apache.spark.rdd.RDD[(String, String)] 我想将其转换为 DataFrame.列对应每页(行)的标题和内容. 解决方案使用 toDF()，如果有列名，请提供. val textDF = textRDD.toDF("title": String, "content": String)textDF:org.apach ..

发布时间：2021-11-14 23:14:25 scala apache-spark type-conversion rdd spark-dataframe 其他开发

使用数据类型 map 将数据帧写入 csv在火花

我有一个文件 file1snappy.parquet.它有一个复杂的数据结构，比如地图，里面的数组.处理后我得到了最终结果.在将结果写入 csv 时，我收到一些错误说 "线程“main"中的异常java.lang.UnsupportedOperationException: CSV 数据源不支持 map数据类型." 我使用过的代码: val conf=new S ..

发布时间：2021-11-14 23:12:01 apache-spark apache-spark-sql rdd 其他开发

RDD 中元组的数量限制；读取 RDD 抛出 arrayIndexOutOfBoundsException

对于包含 25 列的表，我尝试将 DF 修改为 RDD.此后我才知道 Scala(直到 2.11.8)最多可以使用 22 个元组. val rdd = sc.textFile("/user/hive/warehouse/myDB.db/myTable/")rdd: org.apache.spark.rdd.RDD[String] =/user/hive/warehouse/myDB.db/myT ..

发布时间：2021-11-14 23:11:21 scala apache-spark spark-dataframe rdd 其他开发

Spark RDD 中的多个分区

所以我试图在 Play/Scala 项目中使用 Spark 从 MySQL 数据库中获取数据.由于我尝试接收的行数很大，我的目标是从 spark rdd 中获取迭代器.这是 Spark 上下文和配置... 私有 val 配置 = new SparkConf().setAppName("报告").setMaster("本地[*]").set("spark.executor.memory", "2 ..

发布时间：2021-11-14 23:09:44 scala playframework apache-spark rdd apache-spark-sql 其他开发

如何在 PySpark 数据框中创建动态组?

虽然问题是基于连续行的两个或多个列的值创建多个组，但我只是通过这种方式简化了问题.假设有这样的 pyspark 数据框 >>>df=sqlContext.createDataFrame([... Row(SN=1,age=45,gender='M',name='Bob'),... Row(SN=2,age=28,gender='M',name='Albert'),... Row(SN=3,age ..

发布时间：2021-11-14 23:06:35 scala group-by pyspark apache-spark-sql rdd 其他开发

我应该如何将 org.apache.spark.ml.linalg.Vector 的 RDD 转换为数据集?

我正在努力理解 RDD、DataSet 和 DataFrame 之间的转换是如何工作的.我对 Spark 很陌生，每次我需要从数据模型传递到另一个数据模型(尤其是从 RDD 到数据集和数据帧)时，我都会卡住.谁能给我解释一下正确的做法? 举个例子，现在我有一个 RDD[org.apache.spark.ml.linalg.Vector] 并且我需要将它传递给我的机器学习算法，例如一个 KMe ..

发布时间：2021-11-14 23:04:10 apache-spark apache-spark-sql rdd apache-spark-mllib apache-spark-dataset 其他开发

如何在 PySpark 数据框中创建动态组?

虽然问题是基于连续行的两个或多个列的值创建多个组，但我只是通过这种方式简化了问题.假设有这样的 pyspark 数据框 >>>df=sqlContext.createDataFrame([... Row(SN=1,age=45,gender='M',name='Bob'),... Row(SN=2,age=28,gender='M',name='Albert'),... Row(SN=3,age ..

发布时间：2021-11-14 23:04:07 scala group-by pyspark apache-spark-sql rdd 其他开发

在 Apache Spark 中，如何使 RDD/DataFrame 操作变得懒惰?

假设我想编写一个函数 foo 来转换 DataFrame: object Foo {def foo(来源:DataFrame):DataFrame = {...具有停止条件的复杂迭代算法...}} 由于foo的实现有很多“Action"(collect、reduce等)，调用foo会立即触发代价高昂的执行. 这不是一个大问题，但是由于 foo 只将一个 DataFrame 转换为另一个， ..

发布时间：2021-11-14 23:01:23 scala apache-spark apache-spark-sql rdd lazy-evaluation 其他开发

pyspark 中的 RDD 到 DataFrame(来自 rdd 的第一个元素的列)

我从 csv 文件创建了一个 rdd，第一行是该 csv 文件中的标题行.现在我想从那个 rdd 创建数据框并保留 rdd 的第一个元素的列. 问题是我能够创建数据框和来自 rdd.first() 的列，但是创建的数据框的第一行作为标题本身.如何删除? lines = sc.textFile('/path/data.csv')rdd = lines.map(lambda x: x.spli ..

发布时间：2021-11-14 23:00:07 python-2.7 apache-spark pyspark rdd pyspark-sql 其他开发

与 RDD 和 DataFrame 不同的浮点精度

我将 RDD 更改为 DataFrame 并将结果与我使用 read.csv 导入的另一个 DataFrame 进行比较，但两种方法的浮点精度不同.感谢您的帮助. 我使用的数据来自这里. from pyspark.sql import Row从 pyspark.sql.types 导入 * RDD方式 orders = sc.textFile("retail_db/orders") ..

发布时间：2021-11-14 22:58:19 apache-spark pyspark spark-dataframe rdd 其他开发

如何在 Spark 中对具有日期和时间值的列进行排序?

注意:我有这个作为火花中的数据框.此时间/日期值构成数据框中的单个列. 输入: 04-NOV-16 03.36.13.000000000 PM 06-NOV-15 03.42.21.000000000 PM 05-NOV-15 03.32.05.000000000 PM 06-NOV-15 03.32.14.000000000 上午预期输出: 05-NOV-15 03. ..

发布时间：2021-11-14 22:57:32 apache-spark dataframe apache-spark-sql rdd 其他开发

使用 Spark 中的复杂过滤从 elasticsearch 中获取 esJsonRDD

我目前正在基于单行弹性查询的 Spark Job 过滤中获取 elasticsearch RDD(示例): val elasticRdds = sparkContext.esJsonRDD(esIndex, s"?default_operator=AND&q=director.name:DAVID + \n movie.name:SEVEN") 现在，如果我们的搜索查询变得复杂，例如: {“ ..

发布时间：2021-11-14 22:55:05 scala apache-spark elasticsearch spark-dataframe rdd 其他开发

Spark 获得每项的 top N 最高分结果(item1、item2、score)

我有一个以下格式的DataFrame: item_id1:长，item_id2:长，similarity_score:双我想要做的是为每个 item_id1 获取前 N 个最高的相似性_score 记录.因此，例如: 1 2 0.51 3 0.41 4 0.32 1 0.52 3 0.42 4 0.3 如果有前 2 个相似的物品会给出: 1 2 0.51 3 0.42 1 0.52 3 ..

发布时间：2021-11-14 22:54:53 scala apache-spark spark-dataframe rdd 其他开发

如何使用 Spark Scala 加入 3 个 RDD

我想使用 spark rdd 加入 3 个表.我使用 spark sql 实现了我的目标，但是当我尝试使用 Rdd 加入它时，我没有得到想要的结果.下面是我使用 spark SQL 和 output 的查询: scala>actorDF.as("df1").join(movieCastDF.as("df2"),$"df1.act_id"====$"df2.act_id").join(movieD ..

发布时间：2021-11-14 22:53:41 apache-spark hadoop apache-spark-sql bigdata rdd 其他开发

将 RDD 中的 JSON 行转换为 Apache Spark 中的数据帧

我在 S3 中有大约 17,000 个文件，如下所示: {"hour": "00", "month": "07", "second": "00", "year": "1970", "timezone": "-00:00",“天":“12"，“分钟":“00"}{"hour": "00", "month": "07", "second": "01", "year": "1970", "timezo ..

发布时间：2021-11-14 22:53:28 apache-spark pyspark apache-spark-sql rdd 其他开发

格式化 Spark ML 的数据

我是 Spark 和 Spark ML 的新手.我使用函数 KMeansDataGenerator.generateKMeansRDD 生成了一些数据，但是在格式化这些数据时我失败了，以便它可以被 ML 算法使用(这里是 K-Means). 错误是线程“main"中的异常 java.lang.IllegalArgumentException: 不支持数据类型 ArrayType(Do ..

发布时间：2021-11-14 22:53:16 apache-spark apache-spark-sql rdd apache-spark-mllib apache-spark-ml 其他开发

Spark:分组RDD Sql查询

我需要加入 3 个 RDD. val event1001RDD: schemaRDD = [eventtype,id,location,date1] [1001,4929102,LOC01,2015-01-20 10:44:39][1001,4929103,LOC02,2015-01-20 10:44:39][1001,4929104,LOC03,2015-01-20 10:44:39] ..

发布时间：2021-11-14 22:50:05 sql hadoop apache-spark rdd apache-spark-sql 其他开发

Pyspark Dataframe 从列中获取唯一元素，字符串作为元素列表

我有一个数据框(它是通过从 azure 中的多个 blob 加载创建的)，其中有一列是 ID 列表.现在，我想要整个列中的唯一 ID 列表: 这是一个例子 - df -|列 1 |col2 |col3 ||"一个" |"b" |"[q,r]"||"c" |"f" |"[s,r]"| 这是我预期的回复: resp = [q, r, s] 知道怎么去吗? 我目前的方法是将 col3 ..

发布时间：2021-11-14 22:48:57 python dataframe pyspark spark-dataframe rdd Python

rdd相关内容