分布式计算/Hadoop 第6页 - IT屋-程序员软件开发技术分享社区

关于不调用底层MapReduce作业的Hive命令

我的理解是Hive是一种类似SQL的语言，它可以通过调用底层MapReduce程序来执行与数据库相关的任务。但是，我了解到一些Hive命令不会调用MapReduce作业。我很好奇，知道这些命令是什么，以及为什么他们不需要调用MapReduce作业。你是对的，Hive在后台使用MR作业来处理数据。 Wen你在配置单元中激发了一个类似于SQL的查询，它将它转换成背景中的各种MR作业，并给出结果。 ..

发布时间：2018-06-01 12:38:31 hadoop mapreduce hive 分布式计算/Hadoop

在免费的hadoop模式下运行官方示例时的Spark异常

Hadoop：hadoop-2.6.4 Spark：spark-1.6.0-bin-without-hadoop JAVA_HOME和Hadoop / bin文件夹位于$ PATH中在conf / spark-env.sh 中export SPARK_DIST_CLASSPATH = $（/ hadoop-2.6。 4 / bin / hadoop classpath） ..

发布时间：2018-06-01 12:38:22 hadoop apache-spark 分布式计算/Hadoop

为什么hadoop mapper任务的持续时间总是3秒的倍数？

$ b .imgur.com / LvmAU.png“alt =” 当我查看更长时间运行的作业的日志时，请参阅相同的内容：这背后的原因是什么？解决方案 Hadoop的 Task.PROGRESS_INTERVAL 被硬编码为3000毫秒 ..

发布时间：2018-06-01 12:38:13 hadoop 分布式计算/Hadoop

hadoop-2.2.0下编写的hadoop程序能在hadoop-1.2.1下运行吗？

我的电脑里有hadoop-2.2.0，我已经在这个版本下编写了一个程序。现在我需要在一个大集群中测试它，但是集群机器中的hadoop是hadoop-1.2.1。当我尝试运行我的程序时，出现错误： java.lang.NoSuchMethodError：org / apache / hadoop / util / ProgramDriver。运行（[Ljava / lang / Strin ..

发布时间：2018-06-01 12:38:08 hadoop version 分布式计算/Hadoop

如何将平面文件（不是分隔文件）加载到HBase中？

我是hbase的新手，我有一个平面文件（非分隔文件），我希望将其加载到单个hbase表中。这里是预览 0107E07201512310015071C11100747012015123100 我知道一个例子，从位置1到位置7是一个id，从位置7到15这是一个日期.... 问题是如何构建一个与我的文件对应的模式，或者如果有方法将其转换为分隔文件或使用jaql读取此类文件，因为 ..

发布时间：2018-06-01 12:38:05 hadoop load hbase flat-file biginsights 分布式计算/Hadoop

将XML放入HBase的正确方法

我的目标是将这些XML的内容存储在我的HBase中Table使用MapReduce（ no reduce stage ）作为字符串，而不将它们加载到HDFS中。这是我的伪代码： fetchXMLs（path）; XML2OneLineFile（）; configureHBase（）; // +建立连接映射（输入，输出）; //输入：一行中的一个XML文件;输出：是HBas ..

发布时间：2018-06-01 12:37:54 xml hadoop mapreduce hbase 分布式计算/Hadoop

无法通过CM5.5-vmware中的java客户端连接到hbase

我尝试使用java客户端（使用Cloudera-quickstart-vm-5.5.0.0-vmware播放器）将数据加载到hbase中。代码： package com.hbase.stock.record; import java.io.IOException; 导入org.apache.hadoop.conf.Configuration; 导入org.apache. ..

发布时间：2018-06-01 12:37:51 hadoop hbase cloudera 分布式计算/Hadoop

Hive未检测到时间戳记格式

我有一个PIG脚本加载和转换csv中的数据替换一些字符调用java程序（JAR）将csv中的日期时间从06/02/2015 18:52至2015-6-2 18:52（mm / DD / yyyy至yyyy-MM-dd）注册/ home / Cloudera的/ DateTime.jar; A =使用PigStorage（'，'）加载'/user/cloudera ..

发布时间：2018-06-01 12:37:40 date hadoop hive apache-pig cloudera 分布式计算/Hadoop

hadoop datanode启动失败 - 配置不正确：namenode地址dfs.namenode.servicerpc-address或dfs.namenode.rpc-address未配置

我试图用一个namenode和两个datanodes（slave1和slave2）设置Hadoop集群，所以我从Apache Hadoop下载了zip文件，并将其解压缩到datanode的namenode和一个（slave1）中。因此，我在主/从1中完成了所有配置（格式化namenode），并成功设置了主设备slave1，这意味着我能够提交作业并查看datanode因此，我将整个hadoo ..

发布时间：2018-06-01 12:37:35 hadoop 分布式计算/Hadoop

猪 - 简单负荷的例外

我刚开始学习猪，并试图用它做一些事情，所以我进入猪控制台，只需输入 a = load'sample_data.csv'; （我有一个名为 sample_data.csv 的文件）。我收到以下异常： Pig Stack Trace ------------- - 错误2998：未处理的内部错误。。名 java.lang.NoSuchFieldError的：在org.apach ..

发布时间：2018-06-01 12:37:33 hadoop hbase apache-pig 分布式计算/Hadoop

包含在$ SPARK_HOME中的hive-site.xml是什么样的？

我是蜂巢入门的初学者，当我开始启动spark工作并从配置单元读取数据时发生了一些事情（无法找到表）。我不在$ SPARK_HOME / conf中设置hive-site.xml？提交spark job命令在这里 bin / spark- submit --master local [*] --driver-memory 8g --executor -memory 8g --clas ..

发布时间：2018-06-01 12:37:30 hadoop apache-spark hive 分布式计算/Hadoop

Druid / Hadoop批量索引/ Map Reduce / YARN /无远程，只是本地

已解决我们需要将validation.jar放在hadoop / share / hadoop / common / lib /中（从 https://mvnrepository.com/artifact/javax.validation/validation-api *）。结合doc与doc的内容：在你的Druid的索引任务json中将“mapreduce.job.classlo ..

发布时间：2018-06-01 12:37:18 hadoop indexing mapreduce yarn druid 分布式计算/Hadoop

如何使用Json serde解析Hive表的Json列？

我试图根据事件的名称将反序列化的json事件加载到不同的表中。现在我将所有事件都放在同一个事件中表中，表只有两列EventName和Payload（有效负载存储事件的json表示）： CREATE TABLE事件（EventName STRING，Payload STRING）所以基本上我想要的是加载下表中的数据： $ b $ pre $ CREATE TAB ..

发布时间：2018-06-01 12:37:13 json hadoop hive 分布式计算/Hadoop

Hadoop猪XPath返回空属性值

我使用cloudera Hadoop 2.6，pig 0.15版本。我试图从xml文件中提取数据。下面你可以看到xml文件的一部分。输出附件 ..

发布时间：2018-06-01 12:37:08 xml hadoop xpath apache-pig hadoop2 分布式计算/Hadoop

我如何将Kerberos票证传递给Spring Yarn应用程序

我正在尝试运行简单的单一项目纱线应用程序，详细此处。我将应用程序作为jar文件部署到我们的hadoop集群。试图运行时，我收到了一个异常，下面是堆栈跟踪： [2015-06-04 14：10：45.866 ]引导 - 13669 ERROR [主] --- SpringApplication：应用程序启动失败 java.lang.IllegalStateException：未能执行在 ..

发布时间：2018-06-01 12:37:06 spring hadoop spring-boot yarn spring-xd 分布式计算/Hadoop

太多的小文件HDFS Sink Flume

agent.sinks = hpd agent.sinks.hpd.type = hdfs agent.sinks.hpd.channel = memoryChannel agent.sinks .hpd.hdfs.path = hdfs：// master：9000 / user / hduser / gde agent.sinks.hpd.hdfs.fileType = Da ..

发布时间：2018-06-01 12:37:01 hadoop hdfs flume 分布式计算/Hadoop

如何通过hdfs检查分布式数据

我们知道，Hadoop在hdfs中的多个数据节点上复制数据，是否有一条命令用于检查不同节点上的分布式数据。我认为你可能正在寻找这个命令 hdfs fsck / hdfs / path / to / data -files -blocks -locations 你会得到一个如下所示的报告。它报告所有块的列表，它们的复制因子以及这些块位于的主机集。 /hdfs/ ..

发布时间：2018-06-01 12:36:59 hadoop hdfs 分布式计算/Hadoop

Spark Streaming：java.io.FileNotFoundException：文件不存在：< input_filename> ._ COPYING_

我正在写一个从HDFS读取输入的Spark应用程序。我将spark应用程序提交给yarn，然后运行一个将数据从本地fs复制到HDFS的脚本。但Spark应用程序开始引发fileNotFoundException。我相信这是因为在将文件完全复制到HDFS之前，文件正在拾取文件。以下是异常追踪的一部分： java。 io.FileNotFoundException：文件不存 ..

发布时间：2018-06-01 12:36:49 hadoop apache-spark hdfs spark-streaming 分布式计算/Hadoop

主没有在运行

您好，我在我的主日志中运行HBase时遇到了这个异常，并且HMaster未运行。 2012-05-20 11：54：38,206 INFO org.apache.zookeeper.ClientCnxn：打开到服务器localhost的socket连接/ 23.21.190.123：2181 INFO org.apache .zookeeper.ClientCnxn：建立到localh ..

发布时间：2018-06-01 12:36:47 hadoop hbase 分布式计算/Hadoop

运行hadoop作业后生成空输出文件

我有一个如下的MapReduce程序： import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; 导入org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Text; import org.ap ..

发布时间：2018-06-01 12:36:42 hadoop mapreduce 分布式计算/Hadoop