分布式计算/Hadoop 第13页 - IT屋-程序员软件开发技术分享社区

Hive count（*）查询不调用mapreduce

我在配置单元中有外部表，我试图从table_name 查询运行 select count（*），但是查询立即返回并给出了我认为已经存储的结果。查询返回的结果不正确。有没有办法强制map reduce作业，并且每次都要执行查询。注意：所有外部表格都不遵循此行为，但其中一些表格不符合。 / p> 使用的版本：Hive 0.14.0.2.2.6.0-2800，Hadoop 2.6.0.2. ..

发布时间：2018-05-31 20:22:52 hadoop hive 分布式计算/Hadoop

Hadoop UI只显示一个Datanode

配置似乎很好： hduser @ ubuntu-amd64：/ usr / local / hadoop $ ./bin/hdfs dfsadmin -report 当我输入NameNode UI（ http://10.20.0.140:50070/ ）概述卡看起来没问题 - 例如，所有节点的总容量可能会增加。问题是，在卡 Datanodes 中只能看到一个datanode。 ..

发布时间：2018-05-31 20:22:50 hadoop 分布式计算/Hadoop

如何按多列进行分组然后在Hive中转置

我有一些数据想要在多列上分组，然后在其上执行聚合函数，然后使用Hive转置到不同列中。例如， $ b 输入：小时类型值 01 a 10 01 b 20 01 c 50 01 a 30 02 c 10 02 b 90 02 a 80 我想产生这个输出：输出： hr a_avg b_avg c_avg 01 20 20 ..

发布时间：2018-05-31 20:22:23 hadoop hive data-analysis 分布式计算/Hadoop

基于Time Stamp从Hive访问HBase表数据

我已经创建了一个HBase，提供默认版本为10 create'tablename'，{NAME => 'cf'，VERSIONS => 10} 并插入两行（第1行和第2行）放置'tablename'，'row1'，'cf：id'，'row1id' 放'tablename'，'row1'，'cf：name' ，'row1name' 放'tablename'，'ro ..

发布时间：2018-05-31 20:22:13 hadoop hive hbase cloudera hortonworks-data-platform 分布式计算/Hadoop

Hadoop中KeyValueTextInputFormat和TextInputFormat的主要区别是什么？

有人可以给我一个实际的场景，我们必须使用 KeyValueTextInputFormat 和 TextInputFormat ?? 解决方案 TextInputFormat 类将源文件的每一行转换为键/值类型BytesWritable键表示记录的偏移量，Text值表示整个记录本身。 $ b KeyValueTextInputFormat 是一个扩展版本的TextInputFormat， ..

发布时间：2018-05-31 20:22:11 hadoop mapreduce 分布式计算/Hadoop

Hadoop MapReduce（Yarn）使用具有不同功率/规格的主机

我目前在群集中拥有高功率（cpu / ram）主机，我们正在考虑添加一些优质存储，但是低功耗主机。我担心的是会降低工作表现。来自新的（较弱的）主机的Map / Reducers将运行得更慢，而更强大的主机将只需等待结果。有没有办法配置这个在纱线？也许可以为主机设置优先级，或根据每台机器上的内核数量来分配映射器/缩减器。谢谢， Horatiu 解决方案在YARN中 ..

发布时间：2018-05-31 20:22:00 hadoop mapreduce yarn cloudera-cdh 分布式计算/Hadoop

缺少Hive执行jar Hadoop

我知道这是一个重复问题，但这个链接在stackoverflow上没有解决我的问题。当我尝试运行Hive时，出现以下错误： Pawandeep-Singh-2：apache-hive-1.1.1-bin PawandeepSingh1 $ bin / hive readlink：非法选项 - f 用法：readlink [-n] [文件...] 缺少Hive Execu ..

发布时间：2018-05-31 20:21:56 hadoop installation hive bigdata 分布式计算/Hadoop

hadoop fs -mkdir在连接异常时失败

$ b bin / hadoop fs - mkdir输入我得到 mkdir ：呼叫从h1 / 192.168.1.13到h1：9000连接失败异常：java.net.ConnectException：连接被拒绝;欲了解更多详情，请参阅： http://wiki.apache.org/hadoop/ConnectionRefused 这里是详细信息 core-sit ..

发布时间：2018-05-31 20:21:44 hadoop 分布式计算/Hadoop

Hive查询生成与条件匹配的行序列的标识符

假设我有下面的hive表作为输入，我们称它为 connections ： userid |时间戳 -------- | ------------- 1 | 1433258019 1 | 1433258020 2 | 1433258080 2 | 1433258083 2 | 1433258088 2 | 1433258170 [...] | [...] ..

发布时间：2018-05-31 20:21:36 hadoop hive windowing 分布式计算/Hadoop

Sqoop导出分区Hive表

试图导出分区Hive表时遇到了一些问题。这是完全支持（我试图谷歌它，并发现一个JIRA票）？ sqoop导出--connect jdbc：mysql ：// localhost / testdb --table sales --export-dir / user / hive / warehouse / sales --direct 以下是我得到的结果： 0000 ..

发布时间：2018-05-31 20:21:33 hadoop hive sqoop 分布式计算/Hadoop

Hadoop之上的Servlet容器？

我处于大型项目的架构阶段，我决定使用hbase作为我的数据库，并且将使用map / reduce作业进行处理，因此我的架构完全可以在hadoop下运行。事情是我还需要实现一些REST，SOAP API的一些网页，所以我在想有没有任何servlet容器在hadoop之上运行，这样我的系统保持冗余和分布而不用担心次级集群machenism（因为我已经为hadoop设置了一个）。那么是否 ..

发布时间：2018-05-31 20:21:19 servlets hadoop 分布式计算/Hadoop

在使用Hive'Order By'查询时获取无序输出

我曾尝试使用'Order by'，如下所示：从testfilter中选择fieldA，fieldB，fieldC，fieldD where fieldA ='000009000002'按字段A，fieldB，fieldC，fieldD排序; 但是，这会导致一个无序的输出，如下所示： 000009000002 7212 023 653 000009000002 ..

发布时间：2018-05-31 20:21:11 hadoop hive 分布式计算/Hadoop

hadoop windows org.codehaus.mojo：exec-maven-plugin

我试图在我的Windows机器上安装hadoop。我遵循本指南： https://wiki.apache.org/hadoop/Hadoop2OnWindows 但是当我必须执行这一行时： mvn package -Pdist，native-win -DskipTests -Dtar 我有这个错误： [错误]无法执行目标org.codehaus ..

发布时间：2018-05-31 20:21:09 windows maven hadoop mojo 分布式计算/Hadoop

基于Oozie文件的协调员

我试图创建一个基于文件的依赖关系的协调器。我的目标是协调员只有在创建指定的文件时才应该执行工作流程。如果文件没有创建，协调员应该等到创建文件。我尝试了以下代码： ..

发布时间：2018-05-31 20:21:06 hadoop oozie oozie-coordinator 分布式计算/Hadoop

Kerberos | Cloudera | KrbException：使用HMAC SHA1-96加密类型AES256 CTS模式

我一直在尝试为使用Cloudera Manager安装程序设置的CDH 4.5安装Kerberos。这些说明来自以下链接： http://www.cloudera.com/content/cloudera-content/cloudera-docs/CM4Ent/4.5.2/Configuring-Hadoop-Security-with-Cloudera-Manager/cmeechs ..

发布时间：2018-05-31 20:21:03 hadoop kerberos cloudera cloudera-manager 分布式计算/Hadoop

使用Hadoop 2.6.0在Windows上运行wordcount Hadoop示例

我是Hadoop的新手，并了解到使用2.x版本，我可以在本地Windows 7 64位机器上试用Hadoop。我安装了hadoop 2.6.0并安装了cygwin。 > 我可以执行bin / hadoop版本，但执行jar命令时出现以下错误：注意：我还将winutils.jar放入bin中，从hadoop-common- 2.2.0.jar。请帮忙。我无法摆脱这个错误。我还输 ..

发布时间：2018-05-31 20:21:01 hadoop mapreduce word-count 分布式计算/Hadoop

Oozie工作流配置单元动作卡在RUNNING中

我从Hortonworks发行版运行Hadoop 2.4.0，Oozie 4.0.0，Hive 0.13.0。我有多个Oozie协调器作业可以启动工作流程大约在同一时间。协调器作业每个都监视不同的目录，当_SUCCESS文件显示在这些目录中时，工作流将启动。工作流运行Hive操作，从外部目录读取并复制东西。 SET hive.exec.dynamic.partition = ..

发布时间：2018-05-31 20:20:58 hadoop hive oozie yarn 分布式计算/Hadoop

Flume - TwitterSource语言过滤器

我想在以下情况下请求您的帮助。我目前使用Cloudera CDH 5.1.2，并试图使用Flume收集Twitter数据它在下面的porsts（Cloudera）中有描述： http://blog.cloudera.com/blog/2012/10/analyzing -twitter-data-with-hadoop-part-2-gathering-data-with-flume ..

发布时间：2018-05-31 20:20:53 hadoop twitter flume cloudera-cdh flume-twitter 分布式计算/Hadoop

我一直在努力让我的机器上运行hadoop / scala桥梁，当我设置这个工作时，我从编译器中得到以下错误。 [error] found：java.lang.Class [org.apache.hadoop.mapred.TextInputFormat（classOf [org.apache.hadoop.mapred.TextInputFormat]） [error] required：j ..

发布时间：2018-05-31 20:20:46 scala hadoop type-mismatch 分布式计算/Hadoop

Hadoop的版本和Hadoop-common的版本之间有什么关系？

我使用 Maven 构建 Hadoop 项目，并在 http://search.maven.org/ 。 $ b Hadoop-common 的结果仅包含版本 0.2x 和 2.x ，那么版本1.x 如何？以下是搜索链接。看来， Hadoop's版本不符合其 Hadoop-common版本。顺便说一句， ..

发布时间：2018-05-31 20:20:36 maven hadoop 分布式计算/Hadoop