分布式计算/Hadoop
我在某处读到Hadoop内置了对压缩和解压缩的支持,但我想这是关于mapper输出(通过设置一些属性)? 我想知道是否有任何特定的PIG加载/存储功能可用于读取压缩数据或以压缩格式输出数据? 解决方案 PigStorage通过检查文件名来处理压缩输入: *。bz2 / * .bz - org.apache.pig.bzip2r.Bzip2TextInputFormat els
..
我试图使用Confluent平台提供的kafka-hdfs-connector将来自Kafka的数据复制到Hive表中。虽然我能够成功地做到这一点,但我想知道如何根据时间间隔来分段传入的数据。例如,我希望每5分钟创建一个新的分区。 我试过了 io.confluent.connect.hdfs.partitioner.TimeBasedPartitioner with partition.du
..
curl -i -X PUT“http:// SomeHostname:50070 / webhdfs / v1 / file1?op = CREATE” HTTP / 1.1 307 TEMPORARY_REDIRECT Content-Type:application / octet-stream 位置:http:// sslave0:50075 / webhdfs / v1 / f
..
我正在组织的HDP框中安装spark。我运行 yum install spark 并安装Spark 1.4.1。我如何安装Spark 2.0?请帮助! 解决方案 在HDP 2.5中支持Spark 2(作为技术预览版)。您可以将特定的HDP 2.5 repo添加到您的yum repo目录中,然后安装它。 Spark 1.6.2是HDP 2.5中的默认版本。 wget http://p
..
我需要计算Hadoop集群中所有节点上运行的每个映射任务的进度。我正在考虑将处理过的数据的大小除以整个输入数据的大小,但我不确定如何得到这些信息。 我看到 TaskStatus 类有一个方法 getProgress(),但没有任何说明。它提供了我需要的值吗? 解决方案 对于地图任务,是 getProgress()返回映射器在输入文件中的进展程度。为了减少任务,计算并不简单。 这篇文章
..
使用下面的sqoop import命令将序列文件中的内容从MySQL导入到HDFS中。 sqoop import --connect“jdbc: mysql://quickstart.cloudera:3306 / retail_db“ --username retail_dba --password cloudera $ b $ --table命令 --target-dir / us
..
我正在使用cloudera 5.8.0 首先我运行这个命令: 蜂房> ADD JAR /usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar; 将[/usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar]添加到类路径 添加资源:[/usr/lib/hive/lib/hive-serdes-1.0 -SN
..
我正在寻找一个hbase put命令,它可以为hbase表中的同一个rowkey插入多个列族 假设我有一个名为'emp'与两列系列,如'个人'和'教育' 我正在应用下面的命令。它会抛出一些语法错误。 pre $放置'emp','100','personal:name','SURENDER','educational :degree','BTECH' 错误:没有方法'添加'参
..
如果我们必须在流媒体应用程序中读写HBASE,我们可以如何做到这一点。我们通过开放的方法打开连接进行写入,我们如何打开连接进行读取。 object test { if(args.length!= 11){ / / print args System.exit(1) } $ b $ val Array()= args println(“Passed Passed”+ ..
..
早上好, 我是ZooKeeper及其协议的新手,我对它的广播协议Zab感兴趣。 你能否给我提供一个简单的使用Zookeeper的Zab协议的java代码?我一直在寻找,但我没有成功找到一个代码,显示我如何使用Zab。实际上,我需要的很简单,我有一个MapReduce代码,并且我希望所有映射器在更新变量(比如说X)时都会更新一个变量,以便找到更好的X的值(即更大的值)。在这种情况下,领导
..
我使用配置单元来运行查询“select * from T1,T2 where T1.a = T2.b”,并且模式是T1(int,b int),T2(int,b int),它运行,6个地图任务和一个减少任务生成,我想问,这决定了地图任务的数量和减少任务?数据量是多少? 解决方案 hive> select * from emp; 将没有地图,减少将开始。意味着我们只是在倾销这些数据。 如
..
在Hadoop MapReduce中,在所有映射器完成之前不会启动reducer。有人可以解释我在哪个部分/类/ codeline是这个逻辑实施?我在谈论Hadoop MapReduce版本1(不是Yarn)。我搜索了map reduce框架,但有很多类,我不太了解方法调用和它们的顺序。 换句话说,我需要测试目的),即使仍然有工作映射器,减少器开始减少。我知道这样我得到的结果是错误的,但是要
..
假设我的Rowkey有两个部分(NUM1〜NUM2)。 我想在Rowkey的第一部分做一个计数组。有没有办法在HBase中做到这一点? 我可以随时将其作为M / R作业读取所有行,组,数......但我是想知道是否有办法在HBase中做到这一点? 解决方案 选项1: 您可以使用前缀过滤器。 ...有些像下面的东西。 prefixfilter: 此过滤器将一个参
..
我创建了一个读取自定义文件输入格式的配置单元外部表。当文件很小时,这工作得很好。但是,当文件很大时,作业会分裂文件,导致作业失败。 我在IsSplittable方法的自定义输入格式类中返回false。我也尝试将mapreduce.input.fileinputformat.split.minsize和mapred.min.split.size设置为较大的值。我创建了一个Custom Inpu
..
我尝试使用 Pentaho Kettle 从独立Hadoop (版本 2.7.2 默认配置的qith属性)HDFS检索数据。 (版本 6.0.1.0-386 )。 Pentaho和Hadoop不在同一台机器上,但我可以从一个到另一个访问。 我创建了一个新的“Hadoop文件输入”,它具有以下属性: 环境文件/文件夹通配符Rquired包含子文件夹 网址到文件NN 网址到文件建立
..
有没有办法从一个文件(比如说)复制一个文件 hdfs:// old 到 hdfs:// new 解决方案 不知道WebHDFS,但这是可以实现的使用 hadoop distcp 。 该命令如下所示: hadoop distcp hdfs:// old_nn:8020 / old / location / path .file hdfs:// new_nn:8020 / new /
..
请澄清 我有一组具有特定名称的输入文件(比如10)。我一次对所有文件运行字数统计作业(输入路径是文件夹)。我期待与输入文件具有相同名称的10个输出文件。即应该计数File1输入,并应将其存储在具有“file1”名称的单独输出文件中。对所有文件都是如此。 解决方案 等于输入文件的数量。这也会创建给定数量的输出文件。 为每个地图输出键(单词)添加文件前缀。例如,当你在名为“file0
..
我试图读取包含一些数据的Excel文件,以便在hadoop中进行聚合。map reduce程序似乎工作正常,但输出的产品是不可读的格式。我是否需要为Excel使用任何特殊的InputFormat阅读器文件在Hadoop Map Reduce?.My配置如下 配置conf = getConf(); 工作职位=新职位(conf,“LatestWordCount”); job.setJarB
..
这是使用mapReduce和hadoop提取包含特定值的行的后续问题 Mapper函数 public static class MapForWordCount扩展Mapper { private IntWritable saleValue = new IntWritable(); 私人文本rangeValue =
..
我正在测试一个简单的mapreduce应用程序,但是我试图了解在遍历reduce调用的输入值时会发生什么。 这是一段奇怪的代码。 public void reduce(Text key,Iterable values,Context上下文) 抛出IOException,InterruptedException { Iterator iterator = valu
..