hadoop-partitioning相关内容

Hadoop中数据是如何拆分的

Hadoop 是否根据程序中设置的映射器数量来拆分数据?也就是说,有一个大小为 500MB 的数据集,如果 mapper 的数量是 200 个(假设 Hadoop 集群允许同时有 200 个 mapper),每个 mapper 是否给了 2.5 MB 的数据? 此外,所有映射器是同时运行还是其中一些可能会串行运行? 解决方案 我刚刚根据您的问题运行了一个示例 MR 程序,这是我的发现 ..
发布时间:2022-01-14 08:01:07 其他开发

如何为 Opencl 应用程序使用 hadoop MapReuce 框架?

我正在使用 opencl 开发一个应用程序,其基本目标是在 GPU 平台上实现数据挖掘算法.我想使用 Hadoop 分布式文件系统并想在多个节点上执行应用程序.我正在使用 MapReduce 框架,我将基本算法分为两部分,即“Map"和“Reduce". 我以前从未在 hadoop 中工作过,所以我有一些问题: 我是否使用 Java 编写应用程序只是为了使用 Hadoop 和 Mape ..
发布时间:2022-01-13 23:58:21 其他开发

hadoop map减少二次排序

谁能解释一下 hadoop 中的二次排序是如何工作的? 为什么必须使用 GroupingComparator 以及它在 hadoop 中是如何工作的? 我浏览了下面给出的链接,对 groupcomapator 的工作原理产生了疑问. 谁能解释一下分组比较器的工作原理? http://www.bigdataspeak.com/2013/02/hadoop-how-to-do-seco ..
发布时间:2022-01-13 23:08:05 其他开发

Hive 中的窗口函数

我正在 Hive 中探索窗口函数,并且能够理解所有 UDF 的功能.虽然,我无法理解我们与其他函数一起使用的分区依据和排序依据.以下是与我计划构建的查询非常相似的结构. SELECT a, RANK() OVER(partition by b order by c) as d from xyz; 只是想了解这两个关键字所涉及的后台过程. 感谢帮助:) 解决方案 RANK() 解析 ..

Hadoop 处理减速器中的数据倾斜

我正在尝试确定 hadoop api(hadoop 2.0.0 mrv1)中是否有某些可用的钩子来处理减速器的数据倾斜.场景:有一个自定义的复合键和分区器来将数据路由到减速器.为了处理奇怪的情况,但很可能有一百万个键和大值出现在同一个减速器上,需要某种启发式方法,以便可以进一步分区这些数据以产生新的减速器.我正在考虑一个两步过程 将 mapred.max.reduce.failures.pe ..
发布时间:2021-12-15 19:23:57 其他开发

hadoop map reduce中分组比较器有什么用

我想知道为什么在二级 mapreduce 中使用分组比较器. 根据二次排序的权威指导示例 我们希望键的排序顺序是按年份(升序)然后按温度(降序): 1900 35°C1900 34°C1900 34°C...1901 36°C1901 35°C 通过设置一个partitioner来按key的年份部分进行分区,我们可以保证同年的记录转到同一个减速器.这还不足以实现我们的目标目标,然而 ..
发布时间:2021-12-15 18:28:44 其他开发

hadoop map 减少二次排序

谁能解释一下hadoop中的二级排序是如何工作的? 为什么必须使用 GroupingComparator 以及它在 hadoop 中是如何工作的? 我正在浏览下面给出的链接,但对 groupcomapator 的工作原理产生了疑问. 谁能解释一下分组比较器是如何工作的? http://www.bigdataspeak.com/2013/02/hadoop-how-to-do-sec ..
发布时间:2021-12-15 18:20:39 其他开发

指定从 Hive 插入生成的文件的最小数量

我在 AWS EMR 上使用 Hive 将查询结果插入到按日期分区的 Hive 表中.虽然每天的总输出大小相似,但生成的文件数量各不相同,通常在 6 到 8 个之间,但有时它只会创建一个大文件.我重新运行了几次查询,以防万一文件数量碰巧受到集群中节点可用性的影响,但它似乎是一致的. 所以我的问题是(a) 是什么决定了生成多少文件以及(b) 有没有办法指定最小文件数或(甚至更好)每个文件的最大 ..
发布时间:2021-11-27 10:06:25 其他开发

我可以按/存储通过"CREATE TABLE AS SELECT ....."创建的表进行聚类吗?在蜂巢?

我正在尝试在Hive中创建一个表 CREATE TABLE BUCKET_TABLE AS从表1中选择a.* a左联接表2 b打开(a.key = b.key),其中b.key是空的(键)聚集到1000个桶中; 此语法失败-但我不确定是否有可能执行此组合语句.有任何想法吗? 解决方案 在这个问题上出现问题,发现没有提供答案.我进一步看了一下,并在Hive文档中找到了答案. 由 ..
发布时间:2021-05-13 20:16:15 其他开发

数据如何在Hadoop中拆分

Hadoop是否根据程序中设置的映射器数量拆分数据?也就是说,如果一个数据集的大小为500MB,如果映射器的数量为200(假设Hadoop集群同时允许200个映射器),那么每个映射器是否获得2.5 MB的数据? 此外,所有映射器是否同时运行,或者某些映射器可能会串行运行? 解决方案 我只是根据您的问题运行了一个示例MR程序,这是我的发现 输入:小于块大小的文件. 情况1: ..
发布时间:2021-05-13 20:15:06 其他开发

蜂巢中的减速器选择

我有以下记录要处理 1000, 1001, 1002 to 1999, 2000, 2001, 2002 to 2999, 3000, 3001, 3002 to 3999 我想使用HIVE处理以下记录集,以便reducer-1将处理1000至1999的数据,而reducer-2将处理2000至2999的数据,而reducer-3将处理3000至3999的数据.请帮助我解决以上问题 ..
发布时间:2020-11-22 01:55:12 其他开发

AggregateByKey分区?

我有: A_RDD = anRDD.map() B_RDD = A_RDD.aggregateByKey() 好的,我的问题是: 如果我在A_RDD之后放置partitionBy(new HashPartitioner),如下所示: A_RDD = anRDD.map().partitionBy(new HashPartitioner(2)) B_RDD = A_RDD. ..
发布时间:2020-06-17 19:21:54 其他开发

Hadoop中的默认哈希分区程序将哪两个不同的键分配给相同的reducer?

我们知道Hadoop保证来自不同mappers的相同密钥将被发送到相同的reducer. 但是,如果两个不同的键具有相同的哈希值,则它们肯定会进入相同的 reducer,因此它们将被发送到相同的 reduce方法有序?哪一部分负责此逻辑? 非常感谢! 解决方案 Q1:so will them be sent to the same reduce method orderly ..
发布时间:2020-06-17 19:21:51 Java开发