hadoop-partitioning - IT屋-程序员软件开发技术分享社区

Hadoop中数据是如何拆分的

Hadoop 是否根据程序中设置的映射器数量来拆分数据?也就是说，有一个大小为 500MB 的数据集，如果 mapper 的数量是 200 个(假设 Hadoop 集群允许同时有 200 个 mapper)，每个 mapper 是否给了 2.5 MB 的数据? 此外，所有映射器是同时运行还是其中一些可能会串行运行? 解决方案我刚刚根据您的问题运行了一个示例 MR 程序，这是我的发现 ..

发布时间：2022-01-14 08:01:07 hadoop mapreduce hadoop-partitioning 其他开发

如何为 Opencl 应用程序使用 hadoop MapReuce 框架?

我正在使用 opencl 开发一个应用程序，其基本目标是在 GPU 平台上实现数据挖掘算法.我想使用 Hadoop 分布式文件系统并想在多个节点上执行应用程序.我正在使用 MapReduce 框架，我将基本算法分为两部分，即“Map"和“Reduce". 我以前从未在 hadoop 中工作过，所以我有一些问题: 我是否使用 Java 编写应用程序只是为了使用 Hadoop 和 Mape ..

发布时间：2022-01-13 23:58:21 hadoop mapreduce opencl gpu hadoop-partitioning 其他开发

从机上的 DiskErrorException - Hadoop 多节点

我正在尝试从 hadoop 处理 XML 文件，但在对 XML 文件调用字数统计作业时出现以下错误. 13/07/25 12:39:57 信息 mapred.JobClient:任务 ID:尝试_201307251234_0001_m_000008_0，状态:失败获取失败太多13/07/25 12:39:58 INFO mapred.JobClient: 地图 99% 减少 0%13/07/25 ..

发布时间：2022-01-13 23:52:18 hadoop mapreduce hadoop-streaming hadoop-plugins hadoop-partitioning 其他开发

hadoop map减少二次排序

谁能解释一下 hadoop 中的二次排序是如何工作的? 为什么必须使用 GroupingComparator 以及它在 hadoop 中是如何工作的? 我浏览了下面给出的链接，对 groupcomapator 的工作原理产生了疑问. 谁能解释一下分组比较器的工作原理? http://www.bigdataspeak.com/2013/02/hadoop-how-to-do-seco ..

发布时间：2022-01-13 23:08:05 hadoop mapreduce hadoop-partitioning 其他开发

Hive 中的窗口函数

我正在 Hive 中探索窗口函数，并且能够理解所有 UDF 的功能.虽然，我无法理解我们与其他函数一起使用的分区依据和排序依据.以下是与我计划构建的查询非常相似的结构. SELECT a, RANK() OVER(partition by b order by c) as d from xyz; 只是想了解这两个关键字所涉及的后台过程. 感谢帮助:) 解决方案 RANK() 解析 ..

发布时间：2021-12-28 23:26:39 sql hive mapreduce hadoop-partitioning ranking-functions 其他开发

将多个日期作为参数传递给 Hive 查询

我正在尝试将日期列表作为参数传递给我的 hive 查询. #!/bin/bashecho "执行 hive 查询 - 获取不同的日期"var=`hive -S -e "select distinct substr(Transaction_date,0,10) from test_dev_db.TransactionUpdateTable;"`回声 $varecho "执行 hive 查询 - 获 ..

发布时间：2021-12-28 23:14:56 shell hive parameters hiveql hadoop-partitioning 其他开发

Hadoop 处理减速器中的数据倾斜

我正在尝试确定 hadoop api(hadoop 2.0.0 mrv1)中是否有某些可用的钩子来处理减速器的数据倾斜.场景:有一个自定义的复合键和分区器来将数据路由到减速器.为了处理奇怪的情况，但很可能有一百万个键和大值出现在同一个减速器上，需要某种启发式方法，以便可以进一步分区这些数据以产生新的减速器.我正在考虑一个两步过程将 mapred.max.reduce.failures.pe ..

发布时间：2021-12-15 19:23:57 hadoop hadoop-partitioning reducers 其他开发

hadoop map reduce中分组比较器有什么用

我想知道为什么在二级 mapreduce 中使用分组比较器. 根据二次排序的权威指导示例我们希望键的排序顺序是按年份(升序)然后按温度(降序): 1900 35°C1900 34°C1900 34°C...1901 36°C1901 35°C 通过设置一个partitioner来按key的年份部分进行分区，我们可以保证同年的记录转到同一个减速器.这还不足以实现我们的目标目标，然而 ..

发布时间：2021-12-15 18:28:44 hadoop mapreduce hadoop-partitioning 其他开发

Sqoop 导入:复合主键和文本主键

堆栈:使用 Ambari 2.1 安装 HDP-2.3.2.0-2950 源数据库架构在 sql server 上，它包含几个表，它们的主键为: 一个varchar 复合 - 两个 varchar 列或一个 varchar + 一个 int 列或两个 int 列.有一张大桌子吗?具有三个的行PK 中的列一个 int + 两个 varchar 列根据 Sqoop 文档: Sq ..

发布时间：2021-12-15 18:21:44 hadoop hive sqoop hortonworks-data-platform hadoop-partitioning 其他开发

hadoop map 减少二次排序

谁能解释一下hadoop中的二级排序是如何工作的? 为什么必须使用 GroupingComparator 以及它在 hadoop 中是如何工作的? 我正在浏览下面给出的链接，但对 groupcomapator 的工作原理产生了疑问. 谁能解释一下分组比较器是如何工作的? http://www.bigdataspeak.com/2013/02/hadoop-how-to-do-sec ..

发布时间：2021-12-15 18:20:39 hadoop mapreduce hadoop-partitioning 其他开发

指定从 Hive 插入生成的文件的最小数量

我在 AWS EMR 上使用 Hive 将查询结果插入到按日期分区的 Hive 表中.虽然每天的总输出大小相似，但生成的文件数量各不相同，通常在 6 到 8 个之间，但有时它只会创建一个大文件.我重新运行了几次查询，以防万一文件数量碰巧受到集群中节点可用性的影响，但它似乎是一致的. 所以我的问题是(a) 是什么决定了生成多少文件以及(b) 有没有办法指定最小文件数或(甚至更好)每个文件的最大 ..

发布时间：2021-11-27 10:06:25 hive mapreduce hiveql amazon-emr hadoop-partitioning 其他开发

我可以按/存储通过"CREATE TABLE AS SELECT ....."创建的表进行聚类吗?在蜂巢?

我正在尝试在Hive中创建一个表 CREATE TABLE BUCKET_TABLE AS从表1中选择a.* a左联接表2 b打开(a.key = b.key)，其中b.key是空的(键)聚集到1000个桶中；此语法失败-但我不确定是否有可能执行此组合语句.有任何想法吗? 解决方案在这个问题上出现问题，发现没有提供答案.我进一步看了一下，并在Hive文档中找到了答案. 由 ..

发布时间：2021-05-13 20:16:15 hadoop hive hiveql bucket hadoop-partitioning 其他开发

数据如何在Hadoop中拆分

Hadoop是否根据程序中设置的映射器数量拆分数据?也就是说，如果一个数据集的大小为500MB，如果映射器的数量为200(假设Hadoop集群同时允许200个映射器)，那么每个映射器是否获得2.5 MB的数据? 此外，所有映射器是否同时运行，或者某些映射器可能会串行运行? 解决方案我只是根据您的问题运行了一个示例MR程序，这是我的发现输入:小于块大小的文件. 情况1: ..

发布时间：2021-05-13 20:15:06 hadoop mapreduce hadoop-partitioning 其他开发

蜂巢中的减速器选择

我有以下记录要处理 1000, 1001, 1002 to 1999, 2000, 2001, 2002 to 2999, 3000, 3001, 3002 to 3999 我想使用HIVE处理以下记录集，以便reducer-1将处理1000至1999的数据，而reducer-2将处理2000至2999的数据，而reducer-3将处理3000至3999的数据.请帮助我解决以上问题 ..

发布时间：2020-11-22 01:55:12 hadoop hive hiveql reduce hadoop-partitioning 其他开发

如果分区列名称不正确，Hive将删除所有分区

我正遇到一个关于蜂巢的奇怪问题，我有一张基于dept_key分区的表(它是一个整数，例如3212) 表创建如下 create external table dept_details (dept_key,dept_name,dept_location) PARTITIONED BY (dept_key_partition INT) ROW FORMAT DELIMITED FIELDS TE ..

发布时间：2020-06-17 19:22:00 hadoop hive hiveql hadoop-partitioning 其他开发

在hadoop多节点集群上启动HDFS守护程序时出错

在Hadoop多节点设置时发出问题.我启动Master上的hdfs恶魔(bin/start-dfs.sh) 我确实获得了Master的以下日志 starting namenode, logging to /home/hduser/hadoop/libexec/../logs/hadoop-hduser-namenode-localhost.localdomain.out slave: ..

发布时间：2020-06-17 19:21:57 hadoop hadoop-streaming hadoop-plugins hadoop-partitioning 其他开发

AggregateByKey分区?

我有: A_RDD = anRDD.map() B_RDD = A_RDD.aggregateByKey() 好的，我的问题是: 如果我在A_RDD之后放置partitionBy(new HashPartitioner)，如下所示: A_RDD = anRDD.map().partitionBy(new HashPartitioner(2)) B_RDD = A_RDD. ..

发布时间：2020-06-17 19:21:54 scala apache-spark hadoop-partitioning 其他开发

Hadoop中的默认哈希分区程序将哪两个不同的键分配给相同的reducer?

我们知道Hadoop保证来自不同mappers的相同密钥将被发送到相同的reducer. 但是，如果两个不同的键具有相同的哈希值，则它们肯定会进入相同的 reducer，因此它们将被发送到相同的 reduce方法有序?哪一部分负责此逻辑? 非常感谢！解决方案 Q1:so will them be sent to the same reduce method orderly ..

发布时间：2020-06-17 19:21:51 java hadoop hadoop-partitioning Java开发

将多个日期作为参数传递给Hive查询

我正在尝试将日期列表作为参数传递给我的配置单元查询. #!/bin/bash echo "Executing the hive query - Get distinct dates" var=`hive -S -e "select distinct substr(Transaction_date,0,10) from test_dev_db.TransactionUpdateTable;" ..

发布时间：2020-06-17 19:21:48 shell hive hiveql hadoop-partitioning 其他开发

HDINSIGHT配置单元，MSCK修复表table_name抛出错误

我有一个名为employee的外部分区表，其分区为(年，月，日)，每天都有一个新文件出现在特定日期的位置，并要求今天的日期为2016/10/13. > TABLE SCHEMA: create External table employee(EMPID Int,FirstName String,.....) partitioned by (year string,month string,day ..

发布时间：2020-06-17 19:21:46 hive hadoop-partitioning bigdata 其他开发

hadoop-partitioning相关内容