hive相关内容

Hive(Bigdata) - 分段和索引之间的区别

Hive中一个表的分区和索引之间的主要区别是什么? 解决方案 主要区别在于目标: 索引 Hive索引的目标是提高查询查询在表的某些列上的速度。如果没有索引,那么谓词如'WHERE tab1.col1 = 10'的查询将加载整个表或分区并处理所有行。但是,如果col1存在索引,那么只需要加载和处理文件的一部分。 索引变得更加重要当表格变得非常大时,现在你无疑知道,Hive在 ..
发布时间:2018-05-31 20:20:21 分布式计算/Hadoop

配置单元 - 分区上的查询不会返回任何内容

我有一个正在被特定开始日期(ds)分区的表格。我可以查询最新的分区(前一天的数据),它将使用分区罚款。 hive>从vtc4中选择count(1),其中ds ='2012-11-01'; ...垃圾... MapReduce作业推出: 作业0:映射:1减少:1累计CPU:6.43秒HDFS读取:46281957 HDFS写入:7 SUCCESS Total MapReduce ..
发布时间:2018-05-31 20:16:05 分布式计算/Hadoop

从多个服务器加载数据时避免数据复制

我有十几台Web服务器,每台服务器都将数据写入日志文件。在每个小时的开始,使用运行命令的cron脚本将前一小时的数据加载到配置单元中: hive -e“LOAD DATA LOCAL INPATH'myfile.log'INTO TABLE my_table PARTITION(dt ='2015-08-17-05')” 在某些情况下,命令失败并以0以外的代码退出,在这种情 ..
发布时间:2018-05-31 20:14:34 分布式计算/Hadoop

如何在--map-column-hive中使用Sqoop导入命令?

我试图将Teradata的数据平铺到配置单元中。我想按照下面的步骤: $ b $ 1)创建Hue中所有必填字段的Hive表格。 2)通过使用Sqoop导入命令以及 - map-column-hive 属性以将Teradata中的数据加载到配置单元。 从Sqoop导入命令指向已经创建的Hive表,以便Sqooped数据应该放置在相应的Hive表中? 解决方案 p>您可以使用shell和aw ..
发布时间:2018-05-31 20:14:32 分布式计算/Hadoop

基于时间的桶记录(kafka-hdfs-connector)

我试图使用Confluent平台提供的kafka-hdfs-connector将来自Kafka的数据复制到Hive表中。虽然我能够成功地做到这一点,但我想知道如何根据时间间隔来分段传入的数据。例如,我希望每5分钟创建一个新的分区。 我试过了 io.confluent.connect.hdfs.partitioner.TimeBasedPartitioner with partition.du ..

在Oozie中优化多个Hive QL

我对蜂房不够熟悉,所以我在这里。我们正在使用Oozie来链接一堆配置单元。我的任务是优化已在我们的生产环境中运行的应用程序。业务合作伙伴不希望花费比1.5小时更长的时间。我注意到的第一件事情之一就是在这一个工作流程中大约有90个oozie动作。我们还与其他应用程序共享纱线队列。其中一半是hive2操作,每个Hive QL操作只能执行一个HQL语句。 HiveQL操作之间有时会出现延迟,因为Oozi ..
发布时间:2018-05-31 20:13:29 Java开发

这决定了地图任务的数量并减少了蜂巢中的任务?

我使用配置单元来运行查询“select * from T1,T2 where T1.a = T2.b”,并且模式是T1(int,b int),T2(int,b int),它运行,6个地图任务和一个减少任务生成,我想问,这决定了地图任务的数量和减少任务?数据量是多少? 解决方案 hive> select * from emp; 将没有地图,减少将开始。意味着我们只是在倾销这些数据。 如 ..
发布时间:2018-05-31 20:12:58 分布式计算/Hadoop

Hive MapReduce作业分割文件

我创建了一个读取自定义文件输入格式的配置单元外部表。当文件很小时,这工作得很好。但是,当文件很大时,作业会分裂文件,导致作业失败。 我在IsSplittable方法的自定义输入格式类中返回false。我也尝试将mapreduce.input.fileinputformat.split.minsize和mapred.min.split.size设置为较大的值。我创建了一个Custom Inpu ..
发布时间:2018-05-31 20:12:49 分布式计算/Hadoop

Presto unnest json

回答这个问题:如何交叉加入unnest一个json数组presto 我尝试运行提供的示例,但是 我得到并且出错,同时这样做 SQL命令: 从 中选择xn unnest(cast (json_extract('{“payload':[{”type“:”b“,”value“:”9“}, {”type“:”a“,”value“:”8“}] }','$。payload')as a ..
发布时间:2018-05-31 20:12:16 分布式计算/Hadoop

将正常列转换为配置单元中的分区列

我有一个3列的表。现在我需要修改其中一列作为分区列。 有没有可能?如果不是,我们如何将分区添加到现有表中。我使用了下面的语法: create table t1(eno int,ename string)以'\ t'结尾的行格式分隔字段; 将数据本地'/....path/'加载到表t1中; alter table t1添加分区(p1 ='india'); .. 任何人都知道如何将 ..
发布时间:2018-05-31 20:11:57 分布式计算/Hadoop

Hadoop Hive UDF与外部库

我正在尝试编写一个用于解析用户代理的Hadoop Hive的UDF。下面的代码在我的本地机器上工作正常,但在Hadoop上,我得到: org.apache.hadoop.hive.ql.metadata .HiveException:无法执行方法public java.lang.String MyUDF .evaluate(java.lang.String)throws org.apache ..
发布时间:2018-05-31 20:11:52 Java开发

查询avro-backed hive表时出错:java.lang.IllegalArgumentException

我试图在从BigQuery中的原始Google Analytics数据导出的avro文件中创建天蓝色HDInsight上的配置单元表。 它似乎有效。我可以创建表格,并且在运行DESCRIBE时没有错误。但是当我尝试选择结果时,即使我只选择两个非嵌套列,我也会得到一个错误:“java.lang.IllegalArgumentException”。 我创建了表格: DROP TAB ..
发布时间:2018-05-31 20:11:27 分布式计算/Hadoop

如何使用Hive / Pig / MapReduce来展开递归层次结构

我有以表格格式存储的不平衡树数据,如: 父,子 a,b b,c c,d c,f f,g 树的深度是未知的。 以扁平化该层次结构,其中每行包含从一个行中的叶节点到根节点的整个路径,如下所示: 叶节点,根节点,中间节点 d,a,d:c:b f,a,e:b 使用配置单元,猪或mapreduce解决上述问题的任何建议 ..
发布时间:2018-05-31 20:11:21 分布式计算/Hadoop

如何获取Hive数据库中的所有表定义?

我正在寻找Hive中的所有表格定义。我知道,对于单表定义,我可以使用类似于 - 描述> 描述扩展> 但是,我找不到获取所有表定义的方法。在megastore中是否有任何类似于MySQL中的Information_Schema的表或者是否有命令来获取所有表定义? 解决方案 您可以执行此操作通过编写一个简单的ba ..
发布时间:2018-05-31 20:11:09 分布式计算/Hadoop

JDBC到配置单元连接在无效操作上失败isValid()

我遵循这个文档,试图建立一个jdbc连接到蜂巢。但日食显示这个错误。似乎没有弄清楚它到底意味着什么,并且与适当的密码和用户名的连接工作在直线中,所以它不是认证的问题。下面是我面临的错误: > 15/11/27 13:15:41信息jdbc.Utils:提供的权限:localhost:10000 > 15/11/27 13:15:41信息jdbc.Utils:解决权限:localhos ..
发布时间:2018-05-31 20:10:04 Java开发

配置表查询配置对象时出错

我将S3中的日志文件加载到EMR上运行的EMR中,但是在查看数据时我收到了所有NULL ... 我创建了表: pre $ 创建外部表coglogs( HostID字符串, ProcessID字符串, 时间字符串, TimeZoneOffset字符串, SessionID字符串, RequestID字符串, SubRequestID字符串, StepID字符串, 线程字 ..
发布时间:2018-05-31 20:09:29 分布式计算/Hadoop