分布式计算/Hadoop
我的理解是Hive是一种类似SQL的语言,它可以通过调用底层MapReduce程序来执行与数据库相关的任务。但是,我了解到一些Hive命令不会调用MapReduce作业。我很好奇,知道这些命令是什么,以及为什么他们不需要调用MapReduce作业。 你是对的,Hive在后台使用MR作业来处理数据。 Wen你在配置单元中激发了一个类似于SQL的查询,它将它转换成背景中的各种MR作业,并给出结果。
..
Hadoop:hadoop-2.6.4 Spark:spark-1.6.0-bin-without-hadoop JAVA_HOME和Hadoop / bin文件夹位于$ PATH中 在conf / spark-env.sh 中export SPARK_DIST_CLASSPATH = $(/ hadoop-2.6。 4 / bin / hadoop classpath)
..
$ b .imgur.com / LvmAU.png“alt =” 当我查看更长时间运行的作业的日志时,请参阅相同的内容: 这背后的原因是什么? 解决方案 Hadoop的 Task.PROGRESS_INTERVAL 被硬编码为3000毫秒
..
我的电脑里有hadoop-2.2.0,我已经在这个版本下编写了一个程序。现在我需要在一个大集群中测试它,但是集群机器中的hadoop是hadoop-1.2.1。 当我尝试运行我的程序时,出现错误: java.lang.NoSuchMethodError:org / apache / hadoop / util / ProgramDriver。运行([Ljava / lang / Strin
..
我是hbase的新手,我有一个平面文件(非分隔文件),我希望将其加载到单个hbase表中。 这里是预览 0107E07201512310015071C11100747012015123100 我知道一个例子,从位置1到位置7是一个id,从位置7到15这是一个日期.... 问题是如何构建一个与我的文件对应的模式,或者如果有方法将其转换为分隔文件或使用jaql读取此类文件,因为
..
我的目标是将这些XML的内容存储在我的HBase中Table使用MapReduce( no reduce stage )作为字符串,而不将它们加载到HDFS中。 这是我的伪代码: fetchXMLs(path); XML2OneLineFile(); configureHBase(); // +建立连接 映射(输入,输出); //输入:一行中的一个XML文件;输出:是HBas
..
我尝试使用java客户端(使用Cloudera-quickstart-vm-5.5.0.0-vmware播放器)将数据加载到hbase中。 代码: package com.hbase.stock.record; import java.io.IOException; 导入org.apache.hadoop.conf.Configuration; 导入org.apache.
..
我有一个PIG脚本 加载和转换csv中的数据 替换一些字符 调用java程序(JAR)将csv中的日期时间从06/02/2015 18:52至2015-6-2 18:52(mm / DD / yyyy至yyyy-MM-dd) 注册/ home / Cloudera的/ DateTime.jar; A =使用PigStorage(',')加载'/user/cloudera
..
我试图用一个namenode和两个datanodes(slave1和slave2)设置Hadoop集群,所以我从Apache Hadoop下载了zip文件,并将其解压缩到datanode的namenode和一个(slave1)中。 因此,我在主/从1中完成了所有配置(格式化namenode),并成功设置了主设备slave1,这意味着我能够提交作业并查看datanode因此,我将整个hadoo
..
我刚开始学习猪,并试图用它做一些事情,所以我进入猪控制台,只需输入 a = load'sample_data.csv'; (我有一个名为 sample_data.csv 的文件)。我收到以下异常: Pig Stack Trace ------------- - 错误2998:未处理的内部错误。 。名 java.lang.NoSuchFieldError的:在org.apach
..
我是蜂巢入门的初学者,当我开始启动spark工作并从配置单元读取数据时发生了一些事情(无法找到表)。我不在$ SPARK_HOME / conf中设置hive-site.xml? 提交spark job命令在这里 bin / spark- submit --master local [*] --driver-memory 8g --executor -memory 8g --clas
..
已解决 我们需要将validation.jar放在hadoop / share / hadoop / common / lib /中(从 https://mvnrepository.com/artifact/javax.validation/validation-api *)。 结合doc与doc的内容:在你的Druid的索引任务json中将“mapreduce.job.classlo
..
我试图根据事件的名称将反序列化的json事件加载到不同的表中。 现在我将所有事件都放在同一个事件中表中,表只有两列EventName和Payload(有效负载存储事件的json表示): CREATE TABLE事件(EventName STRING,Payload STRING) 所以基本上我想要的是加载下表中的数据: $ b $ pre $ CREATE TAB
..
我使用cloudera Hadoop 2.6,pig 0.15版本。 我试图从xml文件中提取数据。下面你可以看到xml文件的一部分。 输出附件
..
我正在尝试运行简单的单一项目纱线应用程序,详细此处 。我将应用程序作为jar文件部署到我们的hadoop集群。试图运行时,我收到了一个异常,下面是堆栈跟踪: [2015-06-04 14:10:45.866 ]引导 - 13669 ERROR [主] --- SpringApplication:应用程序启动失败 java.lang.IllegalStateException:未能执行在
..
agent.sinks = hpd agent.sinks.hpd.type = hdfs agent.sinks.hpd.channel = memoryChannel agent.sinks .hpd.hdfs.path = hdfs:// master:9000 / user / hduser / gde agent.sinks.hpd.hdfs.fileType = Da
..
我们知道,Hadoop在hdfs中的多个数据节点上复制数据,是否有一条命令用于检查不同节点上的分布式数据。 我认为你可能正在寻找这个命令 hdfs fsck / hdfs / path / to / data -files -blocks -locations 你会得到一个如下所示的报告。它报告所有块的列表,它们的复制因子以及这些块位于的主机集。 /hdfs/
..
我正在写一个从HDFS读取输入的Spark应用程序。我将spark应用程序提交给yarn,然后运行一个将数据从本地fs复制到HDFS的脚本。 但Spark应用程序开始引发fileNotFoundException。 我相信这是因为在将文件完全复制到HDFS之前,文件正在拾取文件。 以下是异常追踪的一部分: java。 io.FileNotFoundException:文件不存
..
您好,我在我的主日志中运行HBase时遇到了这个异常,并且HMaster未运行。 2012-05-20 11:54:38,206 INFO org.apache.zookeeper.ClientCnxn:打开到服务器localhost的socket连接/ 23.21.190.123:2181 INFO org.apache .zookeeper.ClientCnxn:建立到localh
..
我有一个如下的MapReduce程序: import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; 导入org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Text; import org.ap
..