分布式计算/Hadoop

从另一个配置单元表中刷新一个配置单元表

我有几个Hive表,我使用每小时增量导入的Sqoop从RDBMS引入,并将它们分级。我加入这些表格并创建新的维度表。每当我将RDBMS中的新行引入到Hive登台表中时,我都必须刷新维表。如果没有新行,则不应该执行暗表的刷新。我正在使用的配置单元版本没有ACID功能。 需要一些关于如何在配置单元中实现此功能的建议。 解决方案 您可以将新数据插入现有的Hive表中,就像其他数据库一样。 ..
发布时间:2018-06-01 12:39:48 分布式计算/Hadoop

地图减速器的数量减少

这意味着将创建三个分区。 在这种情况下,Reducer和reduce函数的运行时间是多少? $ b $ b 解决方案 如果你设置了3个reducer,它们将全部运行。但是,如果您在大多数中只有两个键,那么两个减速器实际上会接收要处理的数据。 ..
发布时间:2018-06-01 12:39:44 分布式计算/Hadoop

为什么一个蜂巢mapreduce工作被杀害?

我对hue执行了一个hive sql。但相关的mapreduce工作被杀害了。 如何找到原因? 在哪里可以找到相关日志? 通过作业记录找不到日志。 解决方案 Hive日志应该出现在屏幕上和左边的MapReduce作业列表中。 点击Job ID将会将您发送到作业浏览器,您可以在其中详细查看任务的日志。 ..
发布时间:2018-06-01 12:39:34 分布式计算/Hadoop

笛卡儿级联产品

我正在研究一个级联程序,它不仅需要查找字数,还需要查找所有字的总和。我没有任何问题,只要将自己计算在内,并计算所有计数的总和,就可以将其分配到一个带有一个字段和一个元组的单独管道中。 如果我可以得到每个字数元组的总数,那么计算就没有问题了。这是一个简单的笛卡尔产品......但我该怎么做?它似乎应该是一个没有连接字段的CoGroup,但这是不允许的。 解决方案 可以使用 buffer ..
发布时间:2018-06-01 12:39:31 分布式计算/Hadoop

嵌入式hadoop-pig:对UDF使用自动addContainingJar的正确方法是什么?

当你使用pigServer.registerFunction时,你不应该明确地调用pigServer.registerJar,而是让猪使用jarManager.findContainingJar自动检测jar。 然而,我们有一个复杂的UDF,它的类依赖于来自多个罐子的其他类。所以我们用maven-assembly创建了一个jar-with-dependencies。但是这会导致整个jar进入 ..
发布时间:2018-06-01 12:39:27 分布式计算/Hadoop

使用自定义Hadoop输入格式处理Spark中的二进制文件

我开发了一个处理二进制文件的基于hadoop的解决方案。这使用了经典的hadoop MR技术。二进制文件大约为10GB,并分为73个HDFS块,业务逻辑写为映射进程在这73个块中的每一块上运行。我们在Hadoop中开发了一个customInputFormat和CustomRecordReader,它将map(intWritable)和value(BytesWritable)返回给map函数。该值不 ..
发布时间:2018-06-01 12:39:22 分布式计算/Hadoop

Hive外部表可以检测HDFS中的新Parquet文件

我正在使用与Spark捆绑的Hive。我的Spark流作业每个批处理作业将250个Parquet文件写入HDFS,格式为/hdfs/nodes/part-r-$partition_num-$job_hash.gz.parquet。这意味着在1个作业之后,我有250个HDFS文件,而在2个之后,我有500个。使用Parquet创建的我的外部Hive表指向/ hdfs / nodes作为其位置,但它不 ..
发布时间:2018-06-01 12:39:19 分布式计算/Hadoop

hadoop2中JobClient.java和JobSubmitter.java有什么区别?

其中哪些用于提交作业以便在作业追踪器中执行。如果可以解释这两个类在不同的用例中是如何使用的,那将是非常好的。 解决方案 问题1 :JobClient 通过New API中的Job类完成Job 控制,而不是旧类 JobClient $ b Job是Job的作业提交者视图。 它允许用户配置作业,提交作业,控制其执行并查询状态。 set方法只在作业提交之前工作,之后它们将抛出Illeg ..
发布时间:2018-06-01 12:39:17 分布式计算/Hadoop

HDFS - 块大小相关

我只有10 MB大小的文件。我认为在HDFS中,第一个文件消耗10 MB,其余54 MB被释放到可用空间。 我的问题是 - 第二个10 MB文件(或下一个10 MB文件序列)将继续添加直到它变成64 MB? 例如 - 如果我们消耗2块64 MB的每块和20 MB的第3块,那么输入分割将产生3个输出2 64MB和1 20MB?是否真的如此? 使用 Hadoop - 权威指南中的参考 str ..
发布时间:2018-06-01 12:39:11 分布式计算/Hadoop

Flume - 有没有办法将avro事件(header& body)存储到hdfs中?

新来flume ... 我正在接收avro事件并将它们存储到HDFS中。 据我所知,默认情况下只有事件的主体存储在HDFS中。我也知道有一个 avro_event序列化程序。但是我不知道这个串行器实际上在做什么?它如何影响接收器的最终输出? 另外,我不知道如何将事件转储到保存其头信息的HDFS中。是否需要编写自己的序列化程序? 解决方案 事实证明,序列化程序 avro_e ..
发布时间:2018-06-01 12:39:09 分布式计算/Hadoop

如何单独改变HIVE的HDFS复制因子

我们当前的HDFS集群具有复制因子1.但是为了提高性能和可靠性(节点故障),我们希望将Hive中间文件(hive.exec.scratchdir)复制因子单独增加到5.是否可以实现? 问候, Selva 解决方案 strong> -setrep 可以帮助您。 > 用法: hadoop fs -setrep [ -R] [-w] <路径 ..
发布时间:2018-06-01 12:39:04 分布式计算/Hadoop

Hadoop:对小文件使用CombineFileInputFormat是否可以提高性能?

我是hadoop的新手,并在本地计算机上执行一些测试。 有许多解决方案可以处理许多小文件。我正在使用延伸 CombineFileInputFormat 的 CombinedInputFormat 。 我发现mapper的数量已从100更改为25 CombinedInputFormat 。我还应该预计,自从Mapper数量减少后,性能会有所提高吗? 我已经在许多小文件上执行map- ..
发布时间:2018-06-01 12:38:42 分布式计算/Hadoop