分布式计算/Hadoop

在Hadoop / PIG中压缩/解压gzip数据是否透明?

我在某处读到Hadoop内置了对压缩和解压缩的支持,但我想这是关于mapper输出(通过设置一些属性)? 我想知道是否有任何特定的PIG加载/存储功能可用于读取压缩数据或以压缩格式输出数据? 解决方案 PigStorage通过检查文件名来处理压缩输入: *。bz2 / * .bz - org.apache.pig.bzip2r.Bzip2TextInputFormat els ..
发布时间:2018-05-31 20:13:40 分布式计算/Hadoop

基于时间的桶记录(kafka-hdfs-connector)

我试图使用Confluent平台提供的kafka-hdfs-connector将来自Kafka的数据复制到Hive表中。虽然我能够成功地做到这一点,但我想知道如何根据时间间隔来分段传入的数据。例如,我希望每5分钟创建一个新的分区。 我试过了 io.confluent.connect.hdfs.partitioner.TimeBasedPartitioner with partition.du ..

使用yum安装Apache Spark

我正在组织的HDP框中安装spark。我运行 yum install spark 并安装Spark 1.4.1。我如何安装Spark 2.0?请帮助! 解决方案 在HDP 2.5中支持Spark 2(作为技术预览版)。您可以将特定的HDP 2.5 repo添加到您的yum repo目录中,然后安装它。 Spark 1.6.2是HDP 2.5中的默认版本。 wget http://p ..
发布时间:2018-05-31 20:13:23 分布式计算/Hadoop

Hadoop任务进度

我需要计算Hadoop集群中所有节点上运行的每个映射任务的进度。我正在考虑将处理过的数据的大小除以整个输入数据的大小,但我不确定如何得到这些信息。 我看到 TaskStatus 类有一个方法 getProgress(),但没有任何说明。它提供了我需要的值吗? 解决方案 对于地图任务,是 getProgress()返回映射器在输入文件中的进展程度。为了减少任务,计算并不简单。 这篇文章 ..
发布时间:2018-05-31 20:13:18 分布式计算/Hadoop

如何将值放入hbase中的多个列族中

我正在寻找一个hbase put命令,它可以为hbase表中的同一个rowkey插入多个列族 假设我有一个名为'emp'与两列系列,如'个人'和'教育' 我正在应用下面的命令。它会抛出一些语法错误。 pre $放置'emp','100','personal:name','SURENDER','educational :degree','BTECH' 错误:没有方法'添加'参 ..
发布时间:2018-05-31 20:13:08 分布式计算/Hadoop

在ZooKeeper中使用协议Zab广播

早上好, 我是ZooKeeper及其协议的新手,我对它的广播协议Zab感兴趣。 你能否给我提供一个简单的使用Zookeeper的Zab协议的java代码?我一直在寻找,但我没有成功找到一个代码,显示我如何使用Zab。实际上,我需要的很简单,我有一个MapReduce代码,并且我希望所有映射器在更新变量(比如说X)时都会更新一个变量,以便找到更好的X的值(即更大的值)。在这种情况下,领导 ..
发布时间:2018-05-31 20:13:01 分布式计算/Hadoop

这决定了地图任务的数量并减少了蜂巢中的任务?

我使用配置单元来运行查询“select * from T1,T2 where T1.a = T2.b”,并且模式是T1(int,b int),T2(int,b int),它运行,6个地图任务和一个减少任务生成,我想问,这决定了地图任务的数量和减少任务?数据量是多少? 解决方案 hive> select * from emp; 将没有地图,减少将开始。意味着我们只是在倾销这些数据。 如 ..
发布时间:2018-05-31 20:12:58 分布式计算/Hadoop

mapreduce的哪个部分/类是停止执行reduce任务的逻辑

在Hadoop MapReduce中,在所有映射器完成之前不会启动reducer。有人可以解释我在哪个部分/类/ codeline是这个逻辑实施?我在谈论Hadoop MapReduce版本1(不是Yarn)。我搜索了map reduce框架,但有很多类,我不太了解方法调用和它们的顺序。 换句话说,我需要测试目的),即使仍然有工作映射器,减少器开始减少。我知道这样我得到的结果是错误的,但是要 ..
发布时间:2018-05-31 20:12:55 分布式计算/Hadoop

有没有办法在HBase中匹配rowkey-search的COUNT行

假设我的Rowkey有两个部分(NUM1〜NUM2)。 我想在Rowkey的第一部分做一个计数组。有没有办法在HBase中做到这一点? 我可以随时将其作为M / R作业读取所有行,组,数......但我是想知道是否有办法在HBase中做到这一点? 解决方案 选项1: 您可以使用前缀过滤器。 ...有些像下面的东西。 prefixfilter: 此过滤器将一个参 ..
发布时间:2018-05-31 20:12:52 分布式计算/Hadoop

Hive MapReduce作业分割文件

我创建了一个读取自定义文件输入格式的配置单元外部表。当文件很小时,这工作得很好。但是,当文件很大时,作业会分裂文件,导致作业失败。 我在IsSplittable方法的自定义输入格式类中返回false。我也尝试将mapreduce.input.fileinputformat.split.minsize和mapred.min.split.size设置为较大的值。我创建了一个Custom Inpu ..
发布时间:2018-05-31 20:12:49 分布式计算/Hadoop

Pentaho Hadoop文件输入

我尝试使用 Pentaho Kettle 从独立Hadoop (版本 2.7.2 默认配置的qith属性)HDFS检索数据。 (版本 6.0.1.0-386 )。 Pentaho和Hadoop不在同一台机器上,但我可以从一个到另一个访问。 我创建了一个新的“Hadoop文件输入”,它具有以下属性: 环境文件/文件夹通配符Rquired包含子文件夹 网址到文件NN 网址到文件建立 ..
发布时间:2018-05-31 20:12:47 分布式计算/Hadoop

使用WebHDFS复制文件

有没有办法从一个文件(比如说)复制一个文件 hdfs:// old 到 hdfs:// new 解决方案 不知道WebHDFS,但这是可以实现的使用 hadoop distcp 。 该命令如下所示: hadoop distcp hdfs:// old_nn:8020 / old / location / path .file hdfs:// new_nn:8020 / new / ..
发布时间:2018-05-31 20:12:45 分布式计算/Hadoop

MapReduce一对一处理多个输入文件

请澄清 我有一组具有特定名称的输入文件(比如10)。我一次对所有文件运行字数统计作业(输入路径是文件夹)。我期待与输入文件具有相同名称的10个输出文件。即应该计数File1输入,并应将其存储在具有“file1”名称的单独输出文件中。对所有文件都是如此。 解决方案 等于输入文件的数量。这也会创建给定数量的输出文件。 为每个地图输出键(单词)添加文件前缀。例如,当你在名为“file0 ..
发布时间:2018-05-31 20:12:39 分布式计算/Hadoop

读取hadoop map中的excel文件reduce

我试图读取包含一些数据的Excel文件,以便在hadoop中进行聚合。map reduce程序似乎工作正常,但输出的产品是不可读的格式。我是否需要为Excel使用任何特殊的InputFormat阅读器文件在Hadoop Map Reduce?.My配置如下 配置conf = getConf(); 工作职位=新职位(conf,“LatestWordCount”); job.setJarB ..
发布时间:2018-05-31 20:12:36 分布式计算/Hadoop

Hadoop MapReduce迭代reduce调用的输入值

我正在测试一个简单的mapreduce应用程序,但是我试图了解在遍历reduce调用的输入值时会发生什么。 这是一段奇怪的代码。 public void reduce(Text key,Iterable values,Context上下文) 抛出IOException,InterruptedException { Iterator iterator = valu ..
发布时间:2018-05-31 20:12:18 分布式计算/Hadoop