分布式计算/Hadoop

如何提高从非分区表加载数据到HIVE ORC分区表中的性能

我是Hive Querying的新手,我正在寻找从Hive表中检索数据的最佳实践。我们已经启用了TeZ的执行引擎并启用了向量化。 我们希望从Hive表格中进行报告,我从TEZ文档中读取它可以用于实时报告。场景来自我的WEB应用程序,我想在UI上显示Hive Query Select *从Hive表中的结果,但对于任何查询,在hive命令提示符下最少需要20-60秒,即使hive表有60 GB ..
发布时间:2018-05-31 20:20:34 分布式计算/Hadoop

cdh3客户端与Apache Hadoop服务器0.20.xx互操作?

我们有一个基于java客户端的 hadoop-core-0.20.2-cdh3u1.jar 。 对于运行Apache分布式0.20.xx的服务器(集群)工作是否安全? 或者cloudera会破坏一些apache API吗? 谢谢 解决方案 可能是一个坏主意。尝试与使用hadoop核心版本 0.20.203.0 的客户端在使用cdh3u1的服务器上合作,并得到: org.a ..
发布时间:2018-05-31 20:20:26 分布式计算/Hadoop

Hive(Bigdata) - 分段和索引之间的区别

Hive中一个表的分区和索引之间的主要区别是什么? 解决方案 主要区别在于目标: 索引 Hive索引的目标是提高查询查询在表的某些列上的速度。如果没有索引,那么谓词如'WHERE tab1.col1 = 10'的查询将加载整个表或分区并处理所有行。但是,如果col1存在索引,那么只需要加载和处理文件的一部分。 索引变得更加重要当表格变得非常大时,现在你无疑知道,Hive在 ..
发布时间:2018-05-31 20:20:21 分布式计算/Hadoop

无法找到用于32位窗口的hadoop 2.6.0的winutils.exe

我正在寻找32位窗口的winutils.exe和hadoop 2.6.0版本的hadoop.dll。 在执行Map reduce示例时,首先出现错误,告知 错误util.Shell:无法找到hadoop二进制路径中的winutils二进制文件因此,我下载了一个版本,并再次执行bin文件夹,执行相同的命令,我得到的错误就像 错误util.Shell:无法在hadoop二进制路径中找到w ..
发布时间:2018-05-31 20:20:18 分布式计算/Hadoop

如何找到我的hadoop集群的集群ID?

我想将数据从AWS S3复制到我的hadoop群集。在研究复制数据时,我发现了 S3DistCp 。在阅读它时,我遇到了集群ID术语。我从此处阅读有关群集ID的信息,但无法确定如何获得我的hadoop群集的群集ID。 在哪里可以找到我的hadoop群集的群集ID? 注意: I '使用Horton Works 2.2集群设置 解决方案 假设您的 dfs.namenode.name ..
发布时间:2018-05-31 20:20:14 分布式计算/Hadoop

Mapper将值传递给不同的映射器 - 缩减器

我有两个阶段map-reduce hadoop程序。 (mapper1,reducer1,mapper2,reducer2)。我可以直接将一些mapper1键值直接传递给reducer1和其他一些直接映射到mapper2吗? 解决方案 为你想要的reducer1处理的正常设置键值,同时给mapper2的有一些任意的键名(让我们可以在类Text.class中任意说“TO_MAPPER_2”) ..
发布时间:2018-05-31 20:20:11 分布式计算/Hadoop

从磁盘删除映射器任务的结果何时被删除?

映射程序任务的输出何时从本地文件系统中删除?他们坚持到整个工作完成或者他们在早些时候被删除吗? 解决方案 除了地图并减少任务,还会创建两个进一步的任务:作业设置任务 和作业清理任务。这些由tasktrackers运行,用于在任何map任务运行之前运行代码以设置 作业,并在所有reduce任务完成后进行清理。 为作业配置的OutputCommitter确定要运行的代码,默认情况下为 ,这是 ..
发布时间:2018-05-31 20:20:09 分布式计算/Hadoop

Hadoop - “代码移动数据附近进行计算”

我只是想澄清这个引用“代码移近数据进行计算”, 这是否意味着所有的java MR由开发人员编写,部署到群集中的所有服务器上? 如果1是真的,如果有人更改了MR程序,它是如何分发到所有服务器的? p> 感谢 解决方案 Hadoop将MR作业的jar放入HDFS - 它的分布式文件系统。需要它的任务追踪器将从那里采取它。所以它分配给一些节点,然后由实际需要它们的节点按需加载。通 ..
发布时间:2018-05-31 20:19:49 分布式计算/Hadoop

AWS访问密钥ID在hadoop fs -cp命令上失败

我尝试运行hadoop fs -cp命令,但收到以下错误消息: -cp:必须指定AWS访问密钥ID和秘密访问密钥作为s3 URL的用户名或密码(分别),或设置fs.s3.awsAccessKeyId或fs.s3.awsSecretAccessKey属性(分别) 我是新来hadoop和s3所以任何人都可以请给我建议我应该做什么? 谢谢! 解决方案 请参考。 转至 ..
发布时间:2018-05-31 20:19:31 分布式计算/Hadoop

如何在映射器或Reducer中运行外部程序,将HDFS文件作为输入并将输出文件存储在HDFS中?

我有一个外部程序,以文件作为输入并给出输出文件 //例如 输入文件:IN_FILE 输出文件:OUT_FILE //运行外部程序 ./vx $ {OUT_FILE} 我希望在HDFS中输入和输出文件 我有8个节点的簇。而且我有8个输入文件,每个文件有1行 // 1输入文件:1.txt 1:0,0,0 // ..
发布时间:2018-05-31 20:19:26 分布式计算/Hadoop

Hadoop:从节点没有启动

我试图在我的机器上安装一个伪分布式Hadoop集群。 Env详细信息: 主机操作系统:Windows 客户操作系统:Ubuntu $ b 一个奴隶。 我能够在单节点群集上成功运行hadoop wordcount 但是当我尝试添加slave,datanode,jobtracker,namenode并且辅助名称节点在主站中正常启动,但从站中没有数据节点启动。 我可以使用来自主服 ..
发布时间:2018-05-31 20:19:13 分布式计算/Hadoop

在Hadoop中包含第三方Jars

我是Hadoop的新手。我已将Gson API添加到我的MapReducing程序中。当我运行程序时; 错误:java.lang.ClassNotFoundException:com.google.gson.Gson 任何人都可以向我推荐如何将第三方库添加到Hadoop中? 解决方案 一定要添加任何相关性,以两个 HADOOP_CLASSPATH 和 -libjars ..
发布时间:2018-05-31 20:19:01 分布式计算/Hadoop

Hue安装在香草hadoop上

有没有人试图在Hadoop上安装HUE?我们正在使用hadoop 0.20.2,并且我想知道是否有人在我投入时间之前取得了成功。任何指针将不胜感激。 解决方案 看起来像它不可能... {//getsatisfaction.com/cloudera/topics/issue_with_cloudera_plugin_loading_in_hadoop ..
发布时间:2018-05-31 20:18:50 分布式计算/Hadoop

Hadoop:基于簇大小的可用地图插槽数量

阅读由Hadoop生成的系统日志,我可以看到与此类似的行。 2013-05-06 16 :32:45,118 INFO org.apache.hadoop.mapred.JobClient(main):根据簇大小设置映射任务的默认数量为:84 有谁知道这个值是如何计算的? 我怎样才能在我的程序中获得这个值? 解决方案 我擦掉了Hadoop的源代码,找到字符串根据 ..
发布时间:2018-05-31 20:18:47 分布式计算/Hadoop

Hadoop FileSystem.getFS()暂停大约2分钟

我有一个很奇怪的问题。我正在使用dfs-datastores Pail抽象将数据写入Java中的HDFS。我不认为Pail片断对于这个问题很重要。 当它调用org.apache.hadoop.fs.FileSystem时getFS(java.lang.String path )与我的本地文件系统上的路径暂停大约2分钟,似乎什么也没做,然后返回。这是在我的笔记本电脑上。 奇怪的是,当我今 ..
发布时间:2018-05-31 20:18:20 分布式计算/Hadoop

RANK包里面?

假设我有set_of_values: a,k a,l a,m b,x b,y b,z 如果我使用 p> a = RANK set_of_values; 我得到: 1,a,k 2,a,l 3,a,m 4,b,x 5,b,y 6,b,z 我想要达到的是RANK,但是在组内。 首先: ..
发布时间:2018-05-31 20:18:08 分布式计算/Hadoop