分布式计算/Hadoop 第17页 - IT屋-程序员软件开发技术分享社区

在Hadoop / PIG中压缩/解压gzip数据是否透明？

我在某处读到Hadoop内置了对压缩和解压缩的支持，但我想这是关于mapper输出（通过设置一些属性）？我想知道是否有任何特定的PIG加载/存储功能可用于读取压缩数据或以压缩格式输出数据？解决方案 PigStorage通过检查文件名来处理压缩输入： *。bz2 / * .bz - org.apache.pig.bzip2r.Bzip2TextInputFormat els ..

发布时间：2018-05-31 20:13:40 hadoop apache-pig 分布式计算/Hadoop

基于时间的桶记录（kafka-hdfs-connector）

我试图使用Confluent平台提供的kafka-hdfs-connector将来自Kafka的数据复制到Hive表中。虽然我能够成功地做到这一点，但我想知道如何根据时间间隔来分段传入的数据。例如，我希望每5分钟创建一个新的分区。我试过了 io.confluent.connect.hdfs.partitioner.TimeBasedPartitioner with partition.du ..

发布时间：2018-05-31 20:13:32 hadoop hive apache-kafka kafka-consumer-api kafka-producer-api 分布式计算/Hadoop

Webhdfs返回错误的datanode地址

curl -i -X PUT“http：// SomeHostname：50070 / webhdfs / v1 / file1？op = CREATE” HTTP / 1.1 307 TEMPORARY_REDIRECT Content-Type：application / octet-stream 位置：http：// sslave0：50075 / webhdfs / v1 / f ..

发布时间：2018-05-31 20:13:26 hadoop hadoop-plugins webhdfs 分布式计算/Hadoop

使用yum安装Apache Spark

我正在组织的HDP框中安装spark。我运行 yum install spark 并安装Spark 1.4.1。我如何安装Spark 2.0？请帮助！解决方案在HDP 2.5中支持Spark 2（作为技术预览版）。您可以将特定的HDP 2.5 repo添加到您的yum repo目录中，然后安装它。 Spark 1.6.2是HDP 2.5中的默认版本。 wget http://p ..

发布时间：2018-05-31 20:13:23 hadoop apache-spark hortonworks-sandbox 分布式计算/Hadoop

Hadoop任务进度

我需要计算Hadoop集群中所有节点上运行的每个映射任务的进度。我正在考虑将处理过的数据的大小除以整个输入数据的大小，但我不确定如何得到这些信息。我看到 TaskStatus 类有一个方法 getProgress（），但没有任何说明。它提供了我需要的值吗？解决方案对于地图任务，是 getProgress（）返回映射器在输入文件中的进展程度。为了减少任务，计算并不简单。这篇文章 ..

发布时间：2018-05-31 20:13:18 hadoop 分布式计算/Hadoop

将序列文件数据加载到使用存储的序列文件失败创建的配置单元表中

使用下面的sqoop import命令将序列文件中的内容从MySQL导入到HDFS中。 sqoop import --connect“jdbc： mysql：//quickstart.cloudera：3306 / retail_db“ --username retail_dba --password cloudera $ b $ --table命令 --target-dir / us ..

发布时间：2018-05-31 20:13:15 hadoop hive sqoop apache-sqoop 分布式计算/Hadoop

Cloudera Hive：在哪里添加json-serde-1.3.7 jar文件

我正在使用cloudera 5.8.0 首先我运行这个命令：蜂房> ADD JAR /usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar; 将[/usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar]添加到类路径添加资源：[/usr/lib/hive/lib/hive-serdes-1.0 -SN ..

发布时间：2018-05-31 20:13:13 hadoop hive cloudera 分布式计算/Hadoop

如何将值放入hbase中的多个列族中

我正在寻找一个hbase put命令，它可以为hbase表中的同一个rowkey插入多个列族假设我有一个名为'emp'与两列系列，如'个人'和'教育' 我正在应用下面的命令。它会抛出一些语法错误。 pre $放置'emp'，'100'，'personal：name'，'SURENDER'，'educational ：degree'，'BTECH' 错误：没有方法'添加'参 ..

发布时间：2018-05-31 20:13:08 hadoop hbase 分布式计算/Hadoop

如何在flink streaming作业中读写HBase

如果我们必须在流媒体应用程序中读写HBASE，我们可以如何做到这一点。我们通过开放的方法打开连接进行写入，我们如何打开连接进行读取。 object test { if（args.length！= 11）{ / / print args System.exit（1） } $ b $ val Array（）= args println（“Passed Passed”+ .. ..

发布时间：2018-05-31 20:13:06 hadoop apache-flink flink-streaming 分布式计算/Hadoop

在ZooKeeper中使用协议Zab广播

早上好，我是ZooKeeper及其协议的新手，我对它的广播协议Zab感兴趣。你能否给我提供一个简单的使用Zookeeper的Zab协议的java代码？我一直在寻找，但我没有成功找到一个代码，显示我如何使用Zab。实际上，我需要的很简单，我有一个MapReduce代码，并且我希望所有映射器在更新变量（比如说X）时都会更新一个变量，以便找到更好的X的值（即更大的值）。在这种情况下，领导 ..

发布时间：2018-05-31 20:13:01 hadoop mapreduce apache-zookeeper 分布式计算/Hadoop

这决定了地图任务的数量并减少了蜂巢中的任务？

我使用配置单元来运行查询“select * from T1，T2 where T1.a = T2.b”，并且模式是T1（int，b int），T2（int，b int），它运行，6个地图任务和一个减少任务生成，我想问，这决定了地图任务的数量和减少任务？数据量是多少？解决方案 hive> select * from emp; 将没有地图，减少将开始。意味着我们只是在倾销这些数据。如 ..

发布时间：2018-05-31 20:12:58 hadoop hive 分布式计算/Hadoop

mapreduce的哪个部分/类是停止执行reduce任务的逻辑

在Hadoop MapReduce中，在所有映射器完成之前不会启动reducer。有人可以解释我在哪个部分/类/ codeline是这个逻辑实施？我在谈论Hadoop MapReduce版本1（不是Yarn）。我搜索了map reduce框架，但有很多类，我不太了解方法调用和它们的顺序。换句话说，我需要测试目的），即使仍然有工作映射器，减少器开始减少。我知道这样我得到的结果是错误的，但是要 ..

发布时间：2018-05-31 20:12:55 hadoop mapreduce 分布式计算/Hadoop

有没有办法在HBase中匹配rowkey-search的COUNT行

假设我的Rowkey有两个部分（NUM1〜NUM2）。我想在Rowkey的第一部分做一个计数组。有没有办法在HBase中做到这一点？我可以随时将其作为M / R作业读取所有行，组，数......但我是想知道是否有办法在HBase中做到这一点？解决方案选项1：您可以使用前缀过滤器。 ...有些像下面的东西。 prefixfilter：此过滤器将一个参 ..

发布时间：2018-05-31 20:12:52 hadoop hbase 分布式计算/Hadoop

Hive MapReduce作业分割文件

我创建了一个读取自定义文件输入格式的配置单元外部表。当文件很小时，这工作得很好。但是，当文件很大时，作业会分裂文件，导致作业失败。我在IsSplittable方法的自定义输入格式类中返回false。我也尝试将mapreduce.input.fileinputformat.split.minsize和mapred.min.split.size设置为较大的值。我创建了一个Custom Inpu ..

发布时间：2018-05-31 20:12:49 hadoop hive 分布式计算/Hadoop

Pentaho Hadoop文件输入

我尝试使用 Pentaho Kettle 从独立Hadoop （版本 2.7.2 默认配置的qith属性）HDFS检索数据。（版本 6.0.1.0-386 ）。 Pentaho和Hadoop不在同一台机器上，但我可以从一个到另一个访问。我创建了一个新的“Hadoop文件输入”，它具有以下属性：环境文件/文件夹通配符Rquired包含子文件夹网址到文件NN 网址到文件建立 ..

发布时间：2018-05-31 20:12:47 hadoop pentaho data-integration 分布式计算/Hadoop

使用WebHDFS复制文件

有没有办法从一个文件（比如说）复制一个文件 hdfs：// old 到 hdfs：// new 解决方案不知道WebHDFS，但这是可以实现的使用 hadoop distcp 。该命令如下所示： hadoop distcp hdfs：// old_nn：8020 / old / location / path .file hdfs：// new_nn：8020 / new / ..

发布时间：2018-05-31 20:12:45 hadoop hdfs webhdfs 分布式计算/Hadoop

MapReduce一对一处理多个输入文件

请澄清我有一组具有特定名称的输入文件（比如10）。我一次对所有文件运行字数统计作业（输入路径是文件夹）。我期待与输入文件具有相同名称的10个输出文件。即应该计数File1输入，并应将其存储在具有“file1”名称的单独输出文件中。对所有文件都是如此。解决方案等于输入文件的数量。这也会创建给定数量的输出文件。为每个地图输出键（单词）添加文件前缀。例如，当你在名为“file0 ..

发布时间：2018-05-31 20:12:39 hadoop mapreduce 分布式计算/Hadoop

读取hadoop map中的excel文件reduce

我试图读取包含一些数据的Excel文件，以便在hadoop中进行聚合。map reduce程序似乎工作正常，但输出的产品是不可读的格式。我是否需要为Excel使用任何特殊的InputFormat阅读器文件在Hadoop Map Reduce？.My配置如下配置conf = getConf（）; 工作职位=新职位（conf，“LatestWordCount”）; job.setJarB ..

发布时间：2018-05-31 20:12:36 hadoop mapreduce bigdata 分布式计算/Hadoop

mapper和reducer函数的输出是什么

这是使用mapReduce和hadoop提取包含特定值的行的后续问题 Mapper函数 public static class MapForWordCount扩展Mapper { private IntWritable saleValue = new IntWritable（）; 私人文本rangeValue = ..

发布时间：2018-05-31 20:12:23 hadoop mapreduce hadoop2 feature-extraction mapper 分布式计算/Hadoop

Hadoop MapReduce迭代reduce调用的输入值

我正在测试一个简单的mapreduce应用程序，但是我试图了解在遍历reduce调用的输入值时会发生什么。这是一段奇怪的代码。 public void reduce（Text key，Iterable values，Context上下文）抛出IOException，InterruptedException { Iterator iterator = valu ..

发布时间：2018-05-31 20:12:18 hadoop mapreduce 分布式计算/Hadoop