分布式计算/Hadoop
我在配置单元中有外部表,我试图从table_name 查询运行 select count(*),但是查询立即返回并给出了我认为已经存储的结果。查询返回的结果不正确。有没有办法强制map reduce作业,并且每次都要执行查询。 注意:所有外部表格都不遵循此行为,但其中一些表格不符合。 / p> 使用的版本:Hive 0.14.0.2.2.6.0-2800,Hadoop 2.6.0.2.
..
配置似乎很好: hduser @ ubuntu-amd64:/ usr / local / hadoop $ ./bin/hdfs dfsadmin -report 当我输入NameNode UI( http://10.20.0.140:50070/ )概述卡看起来没问题 - 例如,所有节点的总容量可能会增加。 问题是,在卡 Datanodes 中只能看到一个datanode。
..
我有一些数据想要在多列上分组,然后在其上执行聚合函数,然后使用Hive转置到不同列中。例如, $ b 输入: 小时类型值 01 a 10 01 b 20 01 c 50 01 a 30 02 c 10 02 b 90 02 a 80 我想产生这个输出: 输出: hr a_avg b_avg c_avg 01 20 20
..
我已经创建了一个HBase,提供默认版本为10 create'tablename',{NAME => 'cf',VERSIONS => 10} 并插入两行(第1行和第2行) 放置'tablename','row1','cf:id','row1id' 放'tablename','row1','cf:name' ,'row1name' 放'tablename','ro
..
有人可以给我一个实际的场景,我们必须使用 KeyValueTextInputFormat 和 TextInputFormat ?? 解决方案 TextInputFormat 类将源文件的每一行转换为键/值类型BytesWritable键表示记录的偏移量,Text值表示整个记录本身。 $ b KeyValueTextInputFormat 是一个扩展版本的TextInputFormat,
..
我目前在群集中拥有高功率(cpu / ram)主机,我们正在考虑添加一些优质存储,但是低功耗主机。 我担心的是会降低工作表现。来自新的(较弱的)主机的Map / Reducers将运行得更慢,而更强大的主机将只需等待结果。 有没有办法配置这个在纱线?也许可以为主机设置优先级,或根据每台机器上的内核数量来分配映射器/缩减器。 谢谢, Horatiu 解决方案 在YARN中
..
我知道这是一个重复问题,但这个链接在stackoverflow上没有解决我的问题。当我尝试运行Hive时,出现以下错误: Pawandeep-Singh-2:apache-hive-1.1.1-bin PawandeepSingh1 $ bin / hive readlink:非法选项 - f 用法:readlink [-n] [文件...] 缺少Hive Execu
..
$ b bin / hadoop fs - mkdir输入 我得到 mkdir :呼叫从h1 / 192.168.1.13到h1:9000连接失败异常:java.net.ConnectException:连接被拒绝;欲了解更多详情,请参阅: http://wiki.apache.org/hadoop/ConnectionRefused 这里是详细信息 core-sit
..
假设我有下面的hive表作为输入,我们称它为 connections : userid |时间戳 -------- | ------------- 1 | 1433258019 1 | 1433258020 2 | 1433258080 2 | 1433258083 2 | 1433258088 2 | 1433258170 [...] | [...]
..
试图导出分区Hive表时遇到了一些问题。这是完全支持(我试图谷歌它,并发现一个JIRA票)? sqoop导出--connect jdbc:mysql :// localhost / testdb --table sales --export-dir / user / hive / warehouse / sales --direct 以下是我得到的结果: 0000
..
我处于大型项目的架构阶段,我决定使用hbase作为我的数据库,并且将使用map / reduce作业进行处理,因此我的架构完全可以在hadoop下运行。 事情是我还需要实现一些REST,SOAP API的一些网页,所以我在想有没有任何servlet容器在hadoop之上运行,这样我的系统保持冗余和分布而不用担心次级集群machenism(因为我已经为hadoop设置了一个)。 那么是否
..
我曾尝试使用'Order by',如下所示: 从testfilter中选择fieldA,fieldB,fieldC,fieldD where fieldA ='000009000002'按字段A,fieldB,fieldC,fieldD排序; 但是,这会导致一个无序的输出,如下所示: 000009000002 7212 023 653 000009000002
..
我试图在我的Windows机器上安装hadoop。 我遵循本指南: https://wiki.apache.org/hadoop/Hadoop2OnWindows 但是当我必须执行这一行时: mvn package -Pdist,native-win -DskipTests -Dtar 我有这个错误: [错误]无法执行目标org.codehaus
..
我试图创建一个基于文件的依赖关系的协调器。我的目标是协调员只有在创建指定的文件时才应该执行工作流程。如果文件没有创建,协调员应该等到创建文件。 我尝试了以下代码:
..
我一直在尝试为使用Cloudera Manager安装程序设置的CDH 4.5安装Kerberos。 这些说明来自以下链接: http://www.cloudera.com/content/cloudera-content/cloudera-docs/CM4Ent/4.5.2/Configuring-Hadoop-Security-with-Cloudera-Manager/cmeechs
..
我是Hadoop的新手,并了解到使用2.x版本,我可以在本地Windows 7 64位机器上试用Hadoop。 我安装了hadoop 2.6.0并安装了cygwin。 > 我可以执行bin / hadoop版本,但执行jar命令时出现以下错误: 注意:我还将winutils.jar放入bin中,从hadoop-common- 2.2.0.jar。 请帮忙。我无法摆脱这个错误。我还输
..
我从Hortonworks发行版运行Hadoop 2.4.0,Oozie 4.0.0,Hive 0.13.0。 我有多个Oozie协调器作业可以启动工作流程大约在同一时间。协调器作业每个都监视不同的目录,当_SUCCESS文件显示在这些目录中时,工作流将启动。 工作流运行Hive操作,从外部目录读取并复制东西。 SET hive.exec.dynamic.partition =
..
我想在以下情况下请求您的帮助。 我目前使用Cloudera CDH 5.1.2,并试图使用Flume收集Twitter数据它在下面的porsts(Cloudera)中有描述: http://blog.cloudera.com/blog/2012/10/analyzing -twitter-data-with-hadoop-part-2-gathering-data-with-flume
..
我一直在努力让我的机器上运行hadoop / scala桥梁,当我设置这个工作时,我从编译器中得到以下错误。 [error] found:java.lang.Class [org.apache.hadoop.mapred.TextInputFormat(classOf [org.apache.hadoop.mapred.TextInputFormat]) [error] required:j
..
我使用 Maven 构建 Hadoop 项目,并在 http://search.maven.org/ 。 $ b Hadoop-common 的结果仅包含版本 0.2x 和 2.x ,那么版本1.x 如何? 以下是搜索链接。 看来, Hadoop's版本不符合其 Hadoop-common版本。 顺便说一句,
..