hive相关内容
Hive中一个表的分区和索引之间的主要区别是什么? 解决方案 主要区别在于目标: 索引 Hive索引的目标是提高查询查询在表的某些列上的速度。如果没有索引,那么谓词如'WHERE tab1.col1 = 10'的查询将加载整个表或分区并处理所有行。但是,如果col1存在索引,那么只需要加载和处理文件的一部分。 索引变得更加重要当表格变得非常大时,现在你无疑知道,Hive在
..
我在Hadoop群集上使用Hive。每当我尝试运行hive查询时,它总是显示为 Stage-1的Hadoop作业信息:减速器数量:1 我已经使用了以下Hive配置: hive.exec.reducers.bytes.per.reducer = 1000000000 hive.exec.reducers.max = 999 请告诉我如何增加减速器数量。
..
我有一个正在被特定开始日期(ds)分区的表格。我可以查询最新的分区(前一天的数据),它将使用分区罚款。 hive>从vtc4中选择count(1),其中ds ='2012-11-01'; ...垃圾... MapReduce作业推出: 作业0:映射:1减少:1累计CPU:6.43秒HDFS读取:46281957 HDFS写入:7 SUCCESS Total MapReduce
..
我有十几台Web服务器,每台服务器都将数据写入日志文件。在每个小时的开始,使用运行命令的cron脚本将前一小时的数据加载到配置单元中: hive -e“LOAD DATA LOCAL INPATH'myfile.log'INTO TABLE my_table PARTITION(dt ='2015-08-17-05')” 在某些情况下,命令失败并以0以外的代码退出,在这种情
..
我试图将Teradata的数据平铺到配置单元中。我想按照下面的步骤: $ b $ 1)创建Hue中所有必填字段的Hive表格。 2)通过使用Sqoop导入命令以及 - map-column-hive 属性以将Teradata中的数据加载到配置单元。 从Sqoop导入命令指向已经创建的Hive表,以便Sqooped数据应该放置在相应的Hive表中? 解决方案 p>您可以使用shell和aw
..
我试图使用Confluent平台提供的kafka-hdfs-connector将来自Kafka的数据复制到Hive表中。虽然我能够成功地做到这一点,但我想知道如何根据时间间隔来分段传入的数据。例如,我希望每5分钟创建一个新的分区。 我试过了 io.confluent.connect.hdfs.partitioner.TimeBasedPartitioner with partition.du
..
我对蜂房不够熟悉,所以我在这里。我们正在使用Oozie来链接一堆配置单元。我的任务是优化已在我们的生产环境中运行的应用程序。业务合作伙伴不希望花费比1.5小时更长的时间。我注意到的第一件事情之一就是在这一个工作流程中大约有90个oozie动作。我们还与其他应用程序共享纱线队列。其中一半是hive2操作,每个Hive QL操作只能执行一个HQL语句。 HiveQL操作之间有时会出现延迟,因为Oozi
..
使用下面的sqoop import命令将序列文件中的内容从MySQL导入到HDFS中。 sqoop import --connect“jdbc: mysql://quickstart.cloudera:3306 / retail_db“ --username retail_dba --password cloudera $ b $ --table命令 --target-dir / us
..
我正在使用cloudera 5.8.0 首先我运行这个命令: 蜂房> ADD JAR /usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar; 将[/usr/lib/hive/lib/hive-serdes-1.0-SNAPSHOT.jar]添加到类路径 添加资源:[/usr/lib/hive/lib/hive-serdes-1.0 -SN
..
我使用配置单元来运行查询“select * from T1,T2 where T1.a = T2.b”,并且模式是T1(int,b int),T2(int,b int),它运行,6个地图任务和一个减少任务生成,我想问,这决定了地图任务的数量和减少任务?数据量是多少? 解决方案 hive> select * from emp; 将没有地图,减少将开始。意味着我们只是在倾销这些数据。 如
..
我创建了一个读取自定义文件输入格式的配置单元外部表。当文件很小时,这工作得很好。但是,当文件很大时,作业会分裂文件,导致作业失败。 我在IsSplittable方法的自定义输入格式类中返回false。我也尝试将mapreduce.input.fileinputformat.split.minsize和mapred.min.split.size设置为较大的值。我创建了一个Custom Inpu
..
回答这个问题:如何交叉加入unnest一个json数组presto 我尝试运行提供的示例,但是 我得到并且出错,同时这样做 SQL命令: 从 中选择xn unnest(cast (json_extract('{“payload':[{”type“:”b“,”value“:”9“}, {”type“:”a“,”value“:”8“}] }','$。payload')as a
..
我有一个3列的表。现在我需要修改其中一列作为分区列。 有没有可能?如果不是,我们如何将分区添加到现有表中。我使用了下面的语法: create table t1(eno int,ename string)以'\ t'结尾的行格式分隔字段; 将数据本地'/....path/'加载到表t1中; alter table t1添加分区(p1 ='india'); .. 任何人都知道如何将
..
我正在尝试编写一个用于解析用户代理的Hadoop Hive的UDF。下面的代码在我的本地机器上工作正常,但在Hadoop上,我得到: org.apache.hadoop.hive.ql.metadata .HiveException:无法执行方法public java.lang.String MyUDF .evaluate(java.lang.String)throws org.apache
..
我试图在从BigQuery中的原始Google Analytics数据导出的avro文件中创建天蓝色HDInsight上的配置单元表。 它似乎有效。我可以创建表格,并且在运行DESCRIBE时没有错误。但是当我尝试选择结果时,即使我只选择两个非嵌套列,我也会得到一个错误:“java.lang.IllegalArgumentException”。 我创建了表格: DROP TAB
..
我有以表格格式存储的不平衡树数据,如: 父,子 a,b b,c c,d c,f f,g 树的深度是未知的。 以扁平化该层次结构,其中每行包含从一个行中的叶节点到根节点的整个路径,如下所示: 叶节点,根节点,中间节点 d,a,d:c:b f,a,e:b 使用配置单元,猪或mapreduce解决上述问题的任何建议
..
我正在寻找Hive中的所有表格定义。我知道,对于单表定义,我可以使用类似于 - 描述> 描述扩展> 但是,我找不到获取所有表定义的方法。在megastore中是否有任何类似于MySQL中的Information_Schema的表或者是否有命令来获取所有表定义? 解决方案 您可以执行此操作通过编写一个简单的ba
..
我遵循这个文档,试图建立一个jdbc连接到蜂巢。但日食显示这个错误。似乎没有弄清楚它到底意味着什么,并且与适当的密码和用户名的连接工作在直线中,所以它不是认证的问题。下面是我面临的错误: > 15/11/27 13:15:41信息jdbc.Utils:提供的权限:localhost:10000 > 15/11/27 13:15:41信息jdbc.Utils:解决权限:localhos
..
我将S3中的日志文件加载到EMR上运行的EMR中,但是在查看数据时我收到了所有NULL ... 我创建了表: pre $ 创建外部表coglogs( HostID字符串, ProcessID字符串, 时间字符串, TimeZoneOffset字符串, SessionID字符串, RequestID字符串, SubRequestID字符串, StepID字符串, 线程字
..
在配置单元上运行一个简单的选择查询时出现这个奇怪的错误 $ p $ java.lang.IllegalArgumentException:错误的FS :file://usr/lib/hive/lib/CustomUDFint.jar,expected:file:/// at org.apache.hadoop.fs.FileSystem.checkPath(FileSystem.java:
..