rdd相关内容
如果 RDD 是由 sortBy(),如本回复中所述. 现在,哪些操作保留该顺序? 例如,是否保证(在a.sortBy()之后) a.map(f).zip(a) ===a.map(x => (f(x),x)) 怎么样 a.filter(f).map(g) ===a.map(x => (x,g(x))).filter(f(_._1)).map(_._2) 怎么样 a.filte
..
相比 Scala,我更喜欢 Python.但是,由于 Spark 本身是用 Scala 编写的,因此出于显而易见的原因,我希望我的代码在 Scala 中运行得比 Python 版本更快. 有了这个假设,我想学习 &为一些 1GB 的数据编写一些非常常见的预处理代码的 Scala 版本.数据来自 Kaggle 上的 SpringLeaf 竞赛.只是为了概述数据(它包含 1936 个维度和 14
..
在 Spark 版本 1.2.0 中,可以使用 subtract 和 2 个 SchemRDD 来结束与第一个不同的内容 val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD) onlyNewData 包含 todaySchemRDD 中yesterdaySchemaRDD 中不存在的行. 如何使用 Spark 版本 1
..
我正在尝试加载 SVM 文件并将其转换为 DataFrame,以便我可以使用 Spark 的 ML 模块(Pipeline ML).我刚刚在 Ubuntu 14.04 上安装了新的 Spark 1.5.0(未配置 spark-env.sh). 我的 my_script.py 是: from pyspark.mllib.util import MLUtils从 pyspark 导入 Spa
..
尝试使用 spark-shell 读取位于 S3 中的文件: scala>val myRdd = sc.textFile("s3n://myBucket/myFile1.log")歌词:org.apache.spark.rdd.RDD[String] = s3n://myBucket/myFile1.log MappedRDD[55] at textFile at :12标度>myRdd.cou
..
RDD map 和 mapPartitions 方法?flatMap 表现得像 map 还是像 mapPartitions?谢谢. (编辑)即 之间有什么区别(在语义上或在执行方面) def map[A, B](rdd: RDD[A], fn: (A => B))(隐式 a: Manifest[A], b: Manifest[B]): RDD[B] = {rdd.mapPartitio
..
为什么 Spark 中的模式匹配与 Scala 中的模式匹配不同?请参见下面的示例...函数 f() 尝试对类进行模式匹配,这在 Scala REPL 中有效,但在 Spark 中失败并导致所有“???".f2() 是一种使用 .isInstanceOf() 在 Spark 中获得所需结果的解决方法,但我知道这在 Scala 中是不好的形式. 对于在 Spark 中以正确方式匹配模式的任何帮
..
来自我的 Spark UI.跳过是什么意思? 解决方案 通常这意味着数据已经从缓存中获取并且不需要重新执行给定的阶段.它与您的 DAG 一致,表明下一阶段需要改组 (reduceByKey).每当涉及改组时,Spark 自动缓存生成的数据: Shuffle 还会在磁盘上生成大量中间文件.从 Spark 1.3 开始,这些文件会一直保留,直到相应的 RDD 不再使用并被垃圾回收.这样做
..
当从文本文件或集合(或从另一个 RDD)创建弹性分布式数据集 (RDD) 时,我们是否需要显式调用“缓存"或“持久化"以将 RDD 数据存储到内存中?还是RDD数据默认分布式存储在内存中? val textFile = sc.textFile("/user/emp.txt") 据我了解,经过上述步骤后,textFile 是一个RDD,并且在所有/部分节点的内存中可用. 如果是这样,那
..
我正在寻找一种将 RDD 拆分为两个或多个 RDD 的方法.我见过的最接近的是 Scala Spark:将集合拆分为几个 RDD? 仍然是单个 RDD. 如果您熟悉 SAS,可以参考以下内容: data work.split1, work.split2;设置 work.preSplit;如果(条件 1)输出 work.split1否则如果(条件2)输出 work.split2跑; 这导致
..
如何使用分布式方法、IPython 和 Spark 找到整数 RDD 的中位数?RDD 大约有 700,000 个元素,因此太大而无法收集和找到中位数. 这个问题和这个问题类似.但是,问题的答案是使用 Scala,我不知道. 如何使用 Apache Spark 计算准确的中位数? 使用 Scala 答案的思路,我正在尝试用 Python 编写一个类似的答案. 我知道我首先要
..
我阅读了 HashPartitioner.不幸的是,除了 API 调用之外,没有任何解释.我假设 HashPartitioner 根据键的散列对分布式集进行分区.例如,如果我的数据就像 (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) 所以分区器会把它放到不同的分区中,相同的键落在同一个分区中.但是我不明白构造函数参数的重要性 new HashPartiton
..
我只是想知道 RDD 和 DataFrame 之间有什么区别 (Spark 2.0.0 DataFrame 只是 Dataset 的类型别名[行]) 在 Apache Spark 中? 你能把一个转换成另一个吗? 解决方案 A DataFrame is defined with a google search for "DataFrame definition": 一个数据框是
..
如何将 RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) 转换为数据帧 org.apache.spark.sql.DataFrame.我使用 .rdd 将数据帧转换为 rdd.处理后我希望它回到数据框中.我该怎么做? 解决方案 SparkSession 有许多 createDataFrame 方法,它们创建一个 DataFra
..
根据学习星火 请记住,重新分区您的数据是一项相当昂贵的操作.Spark 还有一个优化版本的 repartition() 叫做 coalesce() 可以避免数据移动,但前提是你要减少 RDD 分区的数量. 我得到的一个区别是,使用 repartition() 可以增加/减少分区的数量,但是使用 coalesce() 只能减少分区的数量. 如果分区分布在多台机器上并且运行coale
..
以下是我创建 spark kafka 流的 Scala 代码: val kafkaParams = Map[String, Object](“bootstrap.servers"->"server110:2181,server110:9092",“动物园管理员"->"server110:2181",“key.deserializer" ->classOf[StringDeserializer],
..
我有一个来自 Kafka 的 Spark 消费者.我正在尝试管理恰好一次语义的偏移量. 但是,在访问偏移量时会抛出以下异常: "java.lang.ClassCastException: org.apache.spark.rdd.MapPartitionsRDD无法转换为 org.apache.spark.streaming.kafka.HasOffsetRanges" 执行此操
..
我正在寻找对 Python 中通过 spark 可用的聚合功能的更好解释. 我的例子如下(使用Spark 1.2.0版本的pyspark) sc.parallelize([1,2,3,4]).aggregate((0, 0),(lambda acc, value: (acc[0] + value, acc[1] + 1)),(lambda acc1, acc2: (acc1[0] + ac
..
我使用的是 Spark 1.3.1,我很好奇为什么 Spark 不允许在地图端组合中使用数组键.一段combineByKey函数: if (keyClass.isArray) {如果(mapSideCombine){throw new SparkException("不能使用map-side结合数组键.")}} 解决方案 基本上出于同样的原因 默认分区器不能分区数组键. Scala A
..
我是 Spark & 的新手斯卡拉.我需要处理来自 s3 位置的 json 文件数量.这些数据基本上是批处理数据,将保留以便稍后重新处理.现在我的 spark 作业应该以这样一种方式处理这些文件,即它应该选择 5 个原始 json 记录并且应该向 Kafka 主题发送一条消息.只选择 5 条记录的原因是 kafka 主题在同一主题上同时处理实时和批量数据.所以批处理不应该延迟实时处理. 我需
..