reduce相关内容

对数时间并行减少

给定 n 部分和,可以在 log2 并行步骤中对所有部分和进行求和.例如,假设有八个线程和八个部分和:s0, s1, s2, s3, s4, s5, s6, s7.这可以在 log2(8) = 3 像这样的连续步骤中减少; thread0 thread1 thread2 thread4s0 += s1 s2 += s3 s4 += s5 s6 +=s7s0 += s2 s4 += s6s0 += ..
发布时间:2021-12-30 21:00:26 其他开发

蜂巢左外连接长期运行

Hortonworks HDP 2.3.0 - Hive 0.14 Table T1(在 col1 上分区,无桶,ORC) app 1.2 亿行 &6GB 数据大小Table T2(col2 上的分区,无桶,ORC) app 200 M 行 &6MB 数据大小 T1 左外连接 t2 ( t1.col3 = t2.col3 ) 上述查询在 tez 和 tez 的最后一个减速器阶段长时间运行 ..
发布时间:2021-12-29 00:00:26 其他开发

为什么在这个 MapReduce 中最后的 reduce 步骤非常慢?(HiveQL、HDFS MapReduce)

一些背景信息: 我正在处理 Dataiku DSS、HDFS 和分区数据集.我有一个特定的作业正在运行(Hive 查询),它有两个输入数据集 - 一个是非常大的分区数据集,另一个是小的(~250 行,2 列)非分区数据集.我们称分区表A,非分区表B. 问题: 查询格式如下, SELECT a.f1, f2, ..., fn从 A 作为左连接 B 作为 b开 a.f1 = b.f ..
发布时间:2021-12-28 23:13:58 其他开发

ES6 - 从对象数组中删除重复项

假设一个对象数组如下: const listOfTags = [{id:1,标签:“你好",颜色:“红色",排序:0},{id:2,标签:“世界",颜色:“绿色",排序:1},{id:3,标签:“你好",颜色:“蓝色",排序:4},{id:4,标签:“阳光",颜色:“黄色",排序:5},{id:5,标签:“你好",颜色:“红色",排序:6},] 如果标签和颜色相同,则会出现重复条目​​.在这种 ..
发布时间:2021-12-23 15:36:47 前端开发

了解 Spark 中的 treeReduce()

您可以在此处查看实现:https://github.com/apache/spark/blob/ffa05c84fe75663fc33f3d954d1cb1e084ab3280/python/pyspark/rdd.py#L804 它与“普通"reduce 函数有何不同? depth = 2 是什么意思? 我不希望 reducer 函数在分区上线性传递,但首先减少每个可用的对,然后将 ..
发布时间:2021-12-22 21:42:01 Python

Pyspark RDD ReduceByKey 多功能

我有一个名为 DF 的 PySpark DataFrame,带有 (K,V) 对.我想使用 ReduceByKey 应用多个函数.例如,我有以下三个简单的功能: def sumFunc(a,b):返回a+bdef maxFunc(a,b): 返回 max(a,b)def minFunc(a,b): 返回 min(a,b) 当我只应用一个函数时,例如,以下三项工作: DF.reduceByKe ..
发布时间:2021-12-22 21:30:18 Python

为什么在 Spark 中需要折叠动作?

我有一个愚蠢的问题,涉及fold 和PySpark 中的reduce.我理解这两种方法之间的区别,但是,如果两者都需要应用的函数是一个可交换的幺半群,我无法找出一个例子,其中 fold 不能被reduce`替代. 另外,在fold的PySpark实现中使用了acc = op(obj, acc),为什么使用这个操作顺序而不是acc =op(acc, obj)?(这第二个顺序对我来说听起来更接近 ..
发布时间:2021-12-22 21:19:52 其他开发

在 CouchDB 中使用 map reduce 输出更少的行

假设您有两种文档类型,customers 和 orders.customer 文档包含姓名、地址等基本信息,orders 包含客户每次订购时的所有订单信息.存储文档时,类型=订单或类型=客户. 如果我对一组 10 个客户和 30 个订单执行映射函数,它将输出 40 行.有些行是客户,有些是订单. 问题是,我如何编写reduce,以便订单信息“填充"在具有客户信息的行内?所以它将返回 1 ..
发布时间:2021-12-17 20:52:36 其他开发

为什么在 Clojure 中 reduce 会给出 StackOverflowError?

我正在尝试连接 Seq 的 Seq. 我可以通过 apply concat 做到这一点. user=>(count (apply concat (repeat 3000 (repeat 3000 true))))9000000 然而,根据我有限的知识,我会假设 apply 的使用会强制实现惰性 Seq,这对于非常大的输入来说似乎不合适.如果可以,我宁愿懒惰地这样做. 所以我认为使用 ..
发布时间:2021-12-16 09:02:11 其他开发

Hadoop:键和值在输出文件中以制表符分隔.如何做到以分号分隔?

我认为标题已经解释了我的问题.我想改变 键(制表符空间)值 进入 键;值 在所有输出文件中,reducer 都是从映射器的输出生成的. 我无法使用谷歌找到关于此的好的文档.任何人都可以提供关于如何实现这一目标的一小部分代码吗? 解决方案 设置配置属性mapred.textoutputformat.separator为";" ..
发布时间:2021-12-15 18:52:26 其他开发

Hadoop 中的reduce 任务什么时候开始?

在 Hadoop 中,reduce 任务什么时候开始?它们是否在一定比例(阈值)的映射器完成后开始?如果是这样,这个阈值是固定的吗?通常使用什么样的阈值? 解决方案 reduce 阶段有 3 个步骤:shuffle、sort、reduce.Shuffle是reducer从每个mapper收集数据的地方.这可能发生在映射器生成数据时,因为它只是一个数据传输.另一方面,排序和归约只能在所有映射 ..
发布时间:2021-12-15 18:22:03 其他开发

将为 hive 中的分区表创建多少映射器和减少

对于 hive 中的特定任务将创建多少映射器和减少器,我总是感到困惑.例如,如果块大小 = 128mb 并且有 365 个文件每个映射到一年中的某个日期(每个文件大小 = 1 mb).有基于日期列的分区.在这种情况下,在加载数据期间将运行多少个映射器和化简器? 解决方案 Mappers: 映射器的数量取决于各种因素,例如数据在节点之间的分布方式、输入格式、执行引擎和配置参数.另请参见 ..
发布时间:2021-12-15 18:20:50 其他开发

Kotlin 中 fold 和 reduce 的区别,何时使用哪个?

我对 Kotlin 中的 fold() 和 reduce() 两个函数很困惑,谁能给我一个具体的例子来区分它们? 解决方案 fold 接受一个初始值,您传递给它的 lambda 的第一次调用将接收该初始值和集合的第一个元素作为参数. 以下面的代码为例,计算一个整数列表的总和: listOf(1, 2, 3).fold(0) { sum, element ->总和 + 元素 } 对 ..
发布时间:2021-12-10 17:21:05 其他开发

如何提前中断reduce()方法?

如何中断reduce()方法的迭代? for: for (var i = Things.length - 1; i >= 0; i--) {如果(事物[i] reduce() Things.reduce(function(memo, current){如果(当前 解决方案 UPDATE 一些评论者提出了一个很好的观点,即原始数组正在发生变异,以便尽早破坏 .reduce( ..
发布时间:2021-12-08 23:48:05 前端开发