分布式计算/Hadoop

关于不调用底层MapReduce作业的Hive命令

我的理解是Hive是一种类似SQL的语言,它可以通过调用底层MapReduce程序来执行与数据库相关的任务。但是,我了解到一些Hive命令不会调用MapReduce作业。我很好奇,知道这些命令是什么,以及为什么他们不需要调用MapReduce作业。 你是对的,Hive在后台使用MR作业来处理数据。 Wen你在配置单元中激发了一个类似于SQL的查询,它将它转换成背景中的各种MR作业,并给出结果。 ..
发布时间:2018-06-01 12:38:31 分布式计算/Hadoop

如何将平面文件(不是分隔文件)加载到HBase中?

我是hbase的新手,我有一个平面文件(非分隔文件),我希望将其加载到单个hbase表中。 这里是预览 0107E07201512310015071C11100747012015123100 我知道一个例子,从位置1到位置7是一个id,从位置7到15这是一个日期.... 问题是如何构建一个与我的文件对应的模式,或者如果有方法将其转换为分隔文件或使用jaql读取此类文件,因为 ..
发布时间:2018-06-01 12:38:05 分布式计算/Hadoop

将XML放入HBase的正确方法

我的目标是将这些XML的内容存储在我的HBase中Table使用MapReduce( no reduce stage )作为字符串,而不将它们加载到HDFS中。 这是我的伪代码: fetchXMLs(path); XML2OneLineFile(); configureHBase(); // +建立连接 映射(输入,输出); //输入:一行中的一个XML文件;输出:是HBas ..
发布时间:2018-06-01 12:37:54 分布式计算/Hadoop

hadoop datanode启动失败 - 配置不正确:namenode地址dfs.namenode.servicerpc-address或dfs.namenode.rpc-address未配置

我试图用一个namenode和两个datanodes(slave1和slave2)设置Hadoop集群,所以我从Apache Hadoop下载了zip文件,并将其解压缩到datanode的namenode和一个(slave1)中。 因此,我在主/从1中完成了所有配置(格式化namenode),并成功设置了主设备slave1,这意味着我能够提交作业并查看datanode因此,我将整个hadoo ..
发布时间:2018-06-01 12:37:35 分布式计算/Hadoop

猪 - 简单负荷的例外

我刚开始学习猪,并试图用它做一些事情,所以我进入猪控制台,只需输入 a = load'sample_data.csv'; (我有一个名为 sample_data.csv 的文件)。我收到以下异常: Pig Stack Trace ------------- - 错误2998:未处理的内部错误。 。名 java.lang.NoSuchFieldError的:在org.apach ..
发布时间:2018-06-01 12:37:33 分布式计算/Hadoop

如何使用Json serde解析Hive表的Json列?

我试图根据事件的名称将反序列化的json事件加载到不同的表中。 现在我将所有事件都放在同一个事件中表中,表只有两列EventName和Payload(有效负载存储事件的json表示): CREATE TABLE事件(EventName STRING,Payload STRING) 所以基本上我想要的是加载下表中的数据: $ b $ pre $ CREATE TAB ..
发布时间:2018-06-01 12:37:13 分布式计算/Hadoop

我如何将Kerberos票证传递给Spring Yarn应用程序

我正在尝试运行简单的单一项目纱线应用程序,详细此处 。我将应用程序作为jar文件部署到我们的hadoop集群。试图运行时,我收到了一个异常,下面是堆栈跟踪: [2015-06-04 14:10:45.866 ]引导 - 13669 ERROR [主] --- SpringApplication:应用程序启动失败 java.lang.IllegalStateException:未能执行在 ..
发布时间:2018-06-01 12:37:06 分布式计算/Hadoop

如何通过hdfs检查分布式数据

我们知道,Hadoop在hdfs中的多个数据节点上复制数据,是否有一条命令用于检查不同节点上的分布式数据。 我认为你可能正在寻找这个命令 hdfs fsck / hdfs / path / to / data -files -blocks -locations 你会得到一个如下所示的报告。它报告所有块的列表,它们的复制因子以及这些块位于的主机集。 /hdfs/ ..
发布时间:2018-06-01 12:36:59 分布式计算/Hadoop

Spark Streaming:java.io.FileNotFoundException:文件不存在:< input_filename> ._ COPYING_

我正在写一个从HDFS读取输入的Spark应用程序。我将spark应用程序提交给yarn,然后运行一个将数据从本地fs复制到HDFS的脚本。 但Spark应用程序开始引发fileNotFoundException。 我相信这是因为在将文件完全复制到HDFS之前,文件正在拾取文件。 以下是异常追踪的一部分: java。 io.FileNotFoundException:文件不存 ..
发布时间:2018-06-01 12:36:49 分布式计算/Hadoop

主没有在运行

您好,我在我的主日志中运行HBase时遇到了这个异常,并且HMaster未运行。 2012-05-20 11:54:38,206 INFO org.apache.zookeeper.ClientCnxn:打开到服务器localhost的socket连接/ 23.21.190.123:2181 INFO org.apache .zookeeper.ClientCnxn:建立到localh ..
发布时间:2018-06-01 12:36:47 分布式计算/Hadoop