分布式计算/Hadoop 第14页 - IT屋-程序员软件开发技术分享社区

如何提高从非分区表加载数据到HIVE ORC分区表中的性能

我是Hive Querying的新手，我正在寻找从Hive表中检索数据的最佳实践。我们已经启用了TeZ的执行引擎并启用了向量化。我们希望从Hive表格中进行报告，我从TEZ文档中读取它可以用于实时报告。场景来自我的WEB应用程序，我想在UI上显示Hive Query Select *从Hive表中的结果，但对于任何查询，在hive命令提示符下最少需要20-60秒，即使hive表有60 GB ..

发布时间：2018-05-31 20:20:34 hadoop hive yarn hdinsight 分布式计算/Hadoop

节点/ hbase-unsecure不在ZooKeeper中。检查'zookeeper.znode.parent'中配置的值。

在我的ubuntu机器上启动独立hBase时出现此错误。请帮忙。花费大量的时间让它运行。 :( 我到目前为止检查过的内容 - / etc / hosts包含本地主机127.0.0.1 HBase：hbase-0.98.3-hadoop2-bin.tar.gz Hadoop：hadoop-2.6.0.tar.gz 我的hbase-site.xml中已经有了node / hbase-un ..

发布时间：2018-05-31 20:20:28 hadoop hbase 分布式计算/Hadoop

cdh3客户端与Apache Hadoop服务器0.20.xx互操作？

我们有一个基于java客户端的 hadoop-core-0.20.2-cdh3u1.jar 。对于运行Apache分布式0.20.xx的服务器（集群）工作是否安全？或者cloudera会破坏一些apache API吗？谢谢解决方案可能是一个坏主意。尝试与使用hadoop核心版本 0.20.203.0 的客户端在使用cdh3u1的服务器上合作，并得到： org.a ..

发布时间：2018-05-31 20:20:26 hadoop cloudera 分布式计算/Hadoop

Hive（Bigdata） - 分段和索引之间的区别

Hive中一个表的分区和索引之间的主要区别是什么？解决方案主要区别在于目标：索引 Hive索引的目标是提高查询查询在表的某些列上的速度。如果没有索引，那么谓词如'WHERE tab1.col1 = 10'的查询将加载整个表或分区并处理所有行。但是，如果col1存在索引，那么只需要加载和处理文件的一部分。索引变得更加重要当表格变得非常大时，现在你无疑知道，Hive在 ..

发布时间：2018-05-31 20:20:21 hadoop mapreduce hive bigdata 分布式计算/Hadoop

无法找到用于32位窗口的hadoop 2.6.0的winutils.exe

我正在寻找32位窗口的winutils.exe和hadoop 2.6.0版本的hadoop.dll。在执行Map reduce示例时，首先出现错误，告知错误util.Shell：无法找到hadoop二进制路径中的winutils二进制文件因此，我下载了一个版本，并再次执行bin文件夹，执行相同的命令，我得到的错误就像错误util.Shell：无法在hadoop二进制路径中找到w ..

发布时间：2018-05-31 20:20:18 windows hadoop 分布式计算/Hadoop

无法将Partitoner设置为JobConf对象

我写了一个自定义分区器，但无法将其设置为主类中的 JobConf 对象。 import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Partitioner; 公共类FirstCharTextPartitioner扩展了分区器 { @Override public int get ..

发布时间：2018-05-31 20:20:16 hadoop mapreduce hadoop-partitioning 分布式计算/Hadoop

如何找到我的hadoop集群的集群ID？

我想将数据从AWS S3复制到我的hadoop群集。在研究复制数据时，我发现了 S3DistCp 。在阅读它时，我遇到了集群ID术语。我从此处阅读有关群集ID的信息，但无法确定如何获得我的hadoop群集的群集ID。在哪里可以找到我的hadoop群集的群集ID？注意： I '使用Horton Works 2.2集群设置解决方案假设您的 dfs.namenode.name ..

发布时间：2018-05-31 20:20:14 hadoop amazon-web-services amazon-s3 分布式计算/Hadoop

Mapper将值传递给不同的映射器 - 缩减器

我有两个阶段map-reduce hadoop程序。（mapper1，reducer1，mapper2，reducer2）。我可以直接将一些mapper1键值直接传递给reducer1和其他一些直接映射到mapper2吗？解决方案为你想要的reducer1处理的正常设置键值，同时给mapper2的有一些任意的键名（让我们可以在类Text.class中任意说“TO_MAPPER_2”） ..

发布时间：2018-05-31 20:20:11 hadoop mapreduce 分布式计算/Hadoop

从磁盘删除映射器任务的结果何时被删除？

映射程序任务的输出何时从本地文件系统中删除？他们坚持到整个工作完成或者他们在早些时候被删除吗？解决方案除了地图并减少任务，还会创建两个进一步的任务：作业设置任务和作业清理任务。这些由tasktrackers运行，用于在任何map任务运行之前运行代码以设置作业，并在所有reduce任务完成后进行清理。为作业配置的OutputCommitter确定要运行的代码，默认情况下为，这是 ..

发布时间：2018-05-31 20:20:09 hadoop 分布式计算/Hadoop

自定义输入格式来处理hadoop 0.20中的protobufs

我想用hadoop处理protobufs ....但我不确定从哪里开始。我不在乎分裂大文件。 protobufs存储为二进制数据...我应该扩展哪些类以使其更容易解决方案大象鸟可以使用hadoop处理protobufs。该框架与常规protobuf类一起生成hadoop I / O类。它使用lzo压缩。 ..

发布时间：2018-05-31 20:19:56 hadoop protocol-buffers 分布式计算/Hadoop

如何使用TwoDArrayWritable从映射器发射2D双精度数组

我想用 TwoDArrayWritable 作为值发出一个2D double数组。如何写 c $ c> context.write（key，）编辑并且在 Reducer 如何获得它们在一个二维双数组中并且 print 值。 I 在中写入 Mapper row = E.length; col = E [0] .length; TwoDArrayWrita ..

发布时间：2018-05-31 20:19:52 hadoop mapreduce 分布式计算/Hadoop

Hadoop - “代码移动数据附近进行计算”

我只是想澄清这个引用“代码移近数据进行计算”，这是否意味着所有的java MR由开发人员编写，部署到群集中的所有服务器上？如果1是真的，如果有人更改了MR程序，它是如何分发到所有服务器的？ p> 感谢解决方案 Hadoop将MR作业的jar放入HDFS - 它的分布式文件系统。需要它的任务追踪器将从那里采取它。所以它分配给一些节点，然后由实际需要它们的节点按需加载。通 ..

发布时间：2018-05-31 20:19:49 hadoop mapreduce 分布式计算/Hadoop

AWS访问密钥ID在hadoop fs -cp命令上失败

我尝试运行hadoop fs -cp命令，但收到以下错误消息： -cp：必须指定AWS访问密钥ID和秘密访问密钥作为s3 URL的用户名或密码（分别），或设置fs.s3.awsAccessKeyId或fs.s3.awsSecretAccessKey属性（分别）我是新来hadoop和s3所以任何人都可以请给我建议我应该做什么？谢谢！解决方案请参考。转至 ..

发布时间：2018-05-31 20:19:31 hadoop amazon-web-services 分布式计算/Hadoop

如何在映射器或Reducer中运行外部程序，将HDFS文件作为输入并将输出文件存储在HDFS中？

我有一个外部程序，以文件作为输入并给出输出文件 //例如输入文件：IN_FILE 输出文件：OUT_FILE //运行外部程序 ./vx $ {OUT_FILE} 我希望在HDFS中输入和输出文件我有8个节点的簇。而且我有8个输入文件，每个文件有1行 // 1输入文件：1.txt 1：0,0,0 // ..

发布时间：2018-05-31 20:19:26 hadoop mapreduce 分布式计算/Hadoop

Hadoop：从节点没有启动

我试图在我的机器上安装一个伪分布式Hadoop集群。 Env详细信息：主机操作系统：Windows 客户操作系统：Ubuntu $ b 一个奴隶。我能够在单节点群集上成功运行hadoop wordcount 但是当我尝试添加slave，datanode，jobtracker，namenode并且辅助名称节点在主站中正常启动，但从站中没有数据节点启动。我可以使用来自主服 ..

发布时间：2018-05-31 20:19:13 hadoop 分布式计算/Hadoop

在Hadoop中包含第三方Jars

我是Hadoop的新手。我已将Gson API添加到我的MapReducing程序中。当我运行程序时; 错误：java.lang.ClassNotFoundException：com.google.gson.Gson 任何人都可以向我推荐如何将第三方库添加到Hadoop中？解决方案一定要添加任何相关性，以两个 HADOOP_CLASSPATH 和 -libjars ..

发布时间：2018-05-31 20:19:01 hadoop 分布式计算/Hadoop

Hue安装在香草hadoop上

有没有人试图在Hadoop上安装HUE？我们正在使用hadoop 0.20.2，并且我想知道是否有人在我投入时间之前取得了成功。任何指针将不胜感激。解决方案看起来像它不可能... {//getsatisfaction.com/cloudera/topics/issue_with_cloudera_plugin_loading_in_hadoop ..

发布时间：2018-05-31 20:18:50 user-interface install hadoop 分布式计算/Hadoop

Hadoop：基于簇大小的可用地图插槽数量

阅读由Hadoop生成的系统日志，我可以看到与此类似的行。 2013-05-06 16 ：32：45,118 INFO org.apache.hadoop.mapred.JobClient（main）：根据簇大小设置映射任务的默认数量为：84 有谁知道这个值是如何计算的？我怎样才能在我的程序中获得这个值？解决方案我擦掉了Hadoop的源代码，找到字符串根据 ..

发布时间：2018-05-31 20:18:47 hadoop mapreduce mapper 分布式计算/Hadoop

Hadoop FileSystem.getFS（）暂停大约2分钟

我有一个很奇怪的问题。我正在使用dfs-datastores Pail抽象将数据写入Java中的HDFS。我不认为Pail片断对于这个问题很重要。当它调用org.apache.hadoop.fs.FileSystem时getFS（java.lang.String path ）与我的本地文件系统上的路径暂停大约2分钟，似乎什么也没做，然后返回。这是在我的笔记本电脑上。奇怪的是，当我今 ..

发布时间：2018-05-31 20:18:20 hadoop 分布式计算/Hadoop

RANK包里面？

假设我有set_of_values： a，k a，l a，m b，x b，y b，z 如果我使用 p> a = RANK set_of_values; 我得到： 1，a，k 2，a，l 3，a，m 4，b，x 5，b，y 6，b，z 我想要达到的是RANK，但是在组内。首先： ..

发布时间：2018-05-31 20:18:08 hadoop apache-pig rank 分布式计算/Hadoop