rdd相关内容

哪些操作保留了 RDD 顺序?

如果 RDD 是由 sortBy(),如本回复中所述. 现在,哪些操作保留该顺序? 例如,是否保证(在a.sortBy()之后) a.map(f).zip(a) ===a.map(x => (f(x),x)) 怎么样 a.filter(f).map(g) ===a.map(x => (x,g(x))).filter(f(_._1)).map(_._2) 怎么样 a.filte ..
发布时间:2021-11-12 05:30:30 其他开发

Scala 与 Python 的 Spark 性能

相比 Scala,我更喜欢 Python.但是,由于 Spark 本身是用 Scala 编写的,因此出于显而易见的原因,我希望我的代码在 Scala 中运行得比 Python 版本更快. 有了这个假设,我想学习 &为一些 1GB 的数据编写一些非常常见的预处理代码的 Scala 版本.数据来自 Kaggle 上的 SpringLeaf 竞赛.只是为了概述数据(它包含 1936 个维度和 14 ..
发布时间:2021-11-12 05:28:59 其他开发

Spark:减去两个数据帧

在 Spark 版本 1.2.0 中,可以使用 subtract 和 2 个 SchemRDD 来结束与第一个不同的内容 val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD) onlyNewData 包含 todaySchemRDD 中yesterdaySchemaRDD 中不存在的行. 如何使用 Spark 版本 1 ..
发布时间:2021-11-12 05:28:23 其他开发

Apache Spark 中的案例类相等

为什么 Spark 中的模式匹配与 Scala 中的模式匹配不同?请参见下面的示例...函数 f() 尝试对类进行模式匹配,这在 Scala REPL 中有效,但在 Spark 中失败并导致所有“???".f2() 是一种使用 .isInstanceOf() 在 Spark 中获得所需结果的解决方法,但我知道这在 Scala 中是不好的形式. 对于在 Spark 中以正确方式匹配模式的任何帮 ..
发布时间:2021-11-12 05:25:57 其他开发

“跳过阶段"是什么意思在 Apache Spark Web UI 中是什么意思?

来自我的 Spark UI.跳过是什么意思? 解决方案 通常这意味着数据已经从缓存中获取并且不需要重新执行给定的阶段.它与您的 DAG 一致,表明下一阶段需要改组 (reduceByKey).每当涉及改组时,Spark 自动缓存生成的数据: Shuffle 还会在磁盘上生成大量中间文件.从 Spark 1.3 开始,这些文件会一直保留,直到相应的 RDD 不再使用并被垃圾回收.这样做 ..
发布时间:2021-11-12 05:25:45 其他开发

(为什么)我们需要在 RDD 上调用缓存还是持久化

当从文本文件或集合(或从另一个 RDD)创建弹性分布式数据集 (RDD) 时,我们是否需要显式调用“缓存"或“持久化"以将 RDD 数据存储到内存中?还是RDD数据默认分布式存储在内存中? val textFile = sc.textFile("/user/emp.txt") 据我了解,经过上述步骤后,t​​extFile 是一个RDD,并且在所有/部分节点的内存中可用. 如果是这样,那 ..
发布时间:2021-11-12 05:24:35 其他开发

如何将一个 RDD 拆分为两个或多个 RDD?

我正在寻找一种将 RDD 拆分为两个或多个 RDD 的方法.我见过的最接近的是 Scala Spark:将集合拆分为几个 RDD? 仍然是单个 RDD. 如果您熟悉 SAS,可以参考以下内容: data work.split1, work.split2;设置 work.preSplit;如果(条件 1)输出 work.split1否则如果(条件2)输出 work.split2跑; 这导致 ..
发布时间:2021-11-12 05:23:59 其他开发

如何使用 Spark 查找中位数和分位数

如何使用分布式方法、IPython 和 Spark 找到整数 RDD 的中位数?RDD 大约有 700,000 个元素,因此太大而无法收集和找到中位数. 这个问题和这个问题类似.但是,问题的答案是使用 Scala,我不知道. 如何使用 Apache Spark 计算准确的中位数? 使用 Scala 答案的思路,我正在尝试用 Python 编写一个类似的答案. 我知道我首先要 ..
发布时间:2021-11-12 05:23:56 Python

HashPartitioner 是如何工作的?

我阅读了 HashPartitioner.不幸的是,除了 API 调用之外,没有任何解释.我假设 HashPartitioner 根据键的散列对分布式集进行分区.例如,如果我的数据就像 (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) 所以分区器会把它放到不同的分区中,相同的键落在同一个分区中.但是我不明白构造函数参数的重要性 new HashPartiton ..
发布时间:2021-11-12 05:23:53 其他开发

Spark - 重新分区()与合并()

根据学习星火 请记住,重新分区您的数据是一项相当昂贵的操作.Spark 还有一个优化版本的 repartition() 叫做 coalesce() 可以避免数据移动,但前提是你要减少 RDD 分区的数量. 我得到的一个区别是,使用 repartition() 可以增加/减少分区的数量,但是使用 coalesce() 只能减少分区的数量. 如果分区分布在多台机器上并且运行coale ..
发布时间:2021-11-12 05:23:24 其他开发

Spark从json文件中逐块处理rdd并发布到Kafka主题

我是 Spark & 的新手斯卡拉.我需要处理来自 s3 位置的 json 文件数量.这些数据基本上是批处理数据,将保留以便稍后重新处理.现在我的 spark 作业应该以这样一种方式处理这些文件,即它应该选择 5 个原始 json 记录并且应该向 Kafka 主题发送一条消息.只选择 5 条记录的原因是 kafka 主题在同一主题上同时处理实时和批量数据.所以批处理不应该延迟实时处理. 我需 ..
发布时间:2021-07-03 18:50:53 其他开发