rdd相关内容
我有 textRDD: org.apache.spark.rdd.RDD[(String, String)] 我想将其转换为 DataFrame.列对应每页(行)的标题和内容. 解决方案 使用 toDF(),如果有列名,请提供. val textDF = textRDD.toDF("title": String, "content": String)textDF:org.apach
..
我想弄清楚如何根据另一行更新某些行. 例如,我有一些类似的数据 Id |用户名 |评分 |城市--------------------------------1、飞利浦、2.0、蒙特利尔、...2, 约翰, 4.0, 蒙特利尔, ...3、查尔斯、2.0、德克萨斯、... 我想将同一城市的用户更新为相同的 groupId(1 或 2) Id |用户名 |评分 |城市----------
..
我有 textRDD: org.apache.spark.rdd.RDD[(String, String)] 我想将其转换为 DataFrame.列对应每页(行)的标题和内容. 解决方案 使用 toDF(),如果有列名,请提供. val textDF = textRDD.toDF("title": String, "content": String)textDF:org.apach
..
我有一个文件 file1snappy.parquet.它有一个复杂的数据结构,比如地图,里面的数组.处理后我得到了最终结果.在将结果写入 csv 时,我收到一些错误说 "线程“main"中的异常java.lang.UnsupportedOperationException: CSV 数据源不支持 map数据类型." 我使用过的代码: val conf=new S
..
对于包含 25 列的表,我尝试将 DF 修改为 RDD.此后我才知道 Scala(直到 2.11.8)最多可以使用 22 个元组. val rdd = sc.textFile("/user/hive/warehouse/myDB.db/myTable/")rdd: org.apache.spark.rdd.RDD[String] =/user/hive/warehouse/myDB.db/myT
..
所以我试图在 Play/Scala 项目中使用 Spark 从 MySQL 数据库中获取数据.由于我尝试接收的行数很大,我的目标是从 spark rdd 中获取迭代器.这是 Spark 上下文和配置... 私有 val 配置 = new SparkConf().setAppName("报告").setMaster("本地[*]").set("spark.executor.memory", "2
..
虽然问题是基于连续行的两个或多个列的值创建多个组,但我只是通过这种方式简化了问题.假设有这样的 pyspark 数据框 >>>df=sqlContext.createDataFrame([... Row(SN=1,age=45,gender='M',name='Bob'),... Row(SN=2,age=28,gender='M',name='Albert'),... Row(SN=3,age
..
我正在努力理解 RDD、DataSet 和 DataFrame 之间的转换是如何工作的.我对 Spark 很陌生,每次我需要从数据模型传递到另一个数据模型(尤其是从 RDD 到数据集和数据帧)时,我都会卡住.谁能给我解释一下正确的做法? 举个例子,现在我有一个 RDD[org.apache.spark.ml.linalg.Vector] 并且我需要将它传递给我的机器学习算法,例如一个 KMe
..
虽然问题是基于连续行的两个或多个列的值创建多个组,但我只是通过这种方式简化了问题.假设有这样的 pyspark 数据框 >>>df=sqlContext.createDataFrame([... Row(SN=1,age=45,gender='M',name='Bob'),... Row(SN=2,age=28,gender='M',name='Albert'),... Row(SN=3,age
..
假设我想编写一个函数 foo 来转换 DataFrame: object Foo {def foo(来源:DataFrame):DataFrame = {...具有停止条件的复杂迭代算法...}} 由于foo的实现有很多“Action"(collect、reduce等),调用foo会立即触发代价高昂的执行. 这不是一个大问题,但是由于 foo 只将一个 DataFrame 转换为另一个,
..
我从 csv 文件创建了一个 rdd,第一行是该 csv 文件中的标题行.现在我想从那个 rdd 创建数据框并保留 rdd 的第一个元素的列. 问题是我能够创建数据框和来自 rdd.first() 的列,但是创建的数据框的第一行作为标题本身.如何删除? lines = sc.textFile('/path/data.csv')rdd = lines.map(lambda x: x.spli
..
我将 RDD 更改为 DataFrame 并将结果与我使用 read.csv 导入的另一个 DataFrame 进行比较,但两种方法的浮点精度不同.感谢您的帮助. 我使用的数据来自这里. from pyspark.sql import Row从 pyspark.sql.types 导入 * RDD方式 orders = sc.textFile("retail_db/orders")
..
注意:我有这个作为火花中的数据框.此时间/日期值构成数据框中的单个列. 输入: 04-NOV-16 03.36.13.000000000 PM 06-NOV-15 03.42.21.000000000 PM 05-NOV-15 03.32.05.000000000 PM 06-NOV-15 03.32.14.000000000 上午 预期输出: 05-NOV-15 03.
..
我目前正在基于单行弹性查询的 Spark Job 过滤中获取 elasticsearch RDD(示例): val elasticRdds = sparkContext.esJsonRDD(esIndex, s"?default_operator=AND&q=director.name:DAVID + \n movie.name:SEVEN") 现在,如果我们的搜索查询变得复杂,例如: {“
..
我有一个以下格式的DataFrame: item_id1:长,item_id2:长,similarity_score:双 我想要做的是为每个 item_id1 获取前 N 个最高的相似性_score 记录.因此,例如: 1 2 0.51 3 0.41 4 0.32 1 0.52 3 0.42 4 0.3 如果有前 2 个相似的物品会给出: 1 2 0.51 3 0.42 1 0.52 3
..
我想使用 spark rdd 加入 3 个表.我使用 spark sql 实现了我的目标,但是当我尝试使用 Rdd 加入它时,我没有得到想要的结果.下面是我使用 spark SQL 和 output 的查询: scala>actorDF.as("df1").join(movieCastDF.as("df2"),$"df1.act_id"====$"df2.act_id").join(movieD
..
我在 S3 中有大约 17,000 个文件,如下所示: {"hour": "00", "month": "07", "second": "00", "year": "1970", "timezone": "-00:00",“天":“12",“分钟":“00"}{"hour": "00", "month": "07", "second": "01", "year": "1970", "timezo
..
我是 Spark 和 Spark ML 的新手.我使用函数 KMeansDataGenerator.generateKMeansRDD 生成了一些数据,但是在格式化这些数据时我失败了,以便它可以被 ML 算法使用(这里是 K-Means). 错误是 线程“main"中的异常 java.lang.IllegalArgumentException: 不支持数据类型 ArrayType(Do
..
我需要加入 3 个 RDD. val event1001RDD: schemaRDD = [eventtype,id,location,date1] [1001,4929102,LOC01,2015-01-20 10:44:39][1001,4929103,LOC02,2015-01-20 10:44:39][1001,4929104,LOC03,2015-01-20 10:44:39]
..
我有一个数据框(它是通过从 azure 中的多个 blob 加载创建的),其中有一列是 ID 列表.现在,我想要整个列中的唯一 ID 列表: 这是一个例子 - df -|列 1 |col2 |col3 ||"一个" |"b" |"[q,r]"||"c" |"f" |"[s,r]"| 这是我预期的回复: resp = [q, r, s] 知道怎么去吗? 我目前的方法是将 col3
..