hive相关内容

更改配置单元多列

我们如何修改Hive中多列的数据类型? CREATE TABLE test_change(int,b int,c int); ALTER TABLE test_change CHANGE a a string b b doube c c decimal(11,2); 解决方案 据我所知,你不能。在蜂巢文档可以发现以下: ALTER TABLE T ..
发布时间:2018-05-31 19:38:15 分布式计算/Hadoop

Hive变量替换功能

我试图在Hive中使用以下内容: set TODAY =“2013-11-04”; //这是可行的 SET TODAY = to_date(from_unixtime(unix_timestamp())); //这不是。 设置TODAY; TODAY = to_date(from_unixtime(unix_timestamp())) 有什么建议? 解决方案 S ..
发布时间:2018-05-31 19:38:07 分布式计算/Hadoop

查询执行时,Hive是否运行hadoop?

我试图了解hive和hadoop如何相互作用。从我读过的教程中,我看到在运行HIVE查询之前,您运行map / reduce作业来获取输入数据。这对我来说似乎适得其反,如果我已经运行map / reduce作业并以易于解析的格式获取数据,为什么不将数据放入传统数据库中。 感谢您的帮助, Nathan 解决方案 Hive对存储在HDFS上的文件进行操作。除了最简单的查询之外,配置单元 ..
发布时间:2018-05-31 19:37:55 分布式计算/Hadoop

Hive服务,HiveServer2& MetaStore服务?

我试图在架构方面理解 hive ,我指的是Tom White的关于Hadoop的书。 我遇到以下有关hive的术语: Hive Services , hiveserver2 , metacon 等等。 参考下图(Hadoop:权威指南)。 Hive架构: MetaStore配置: Hive Architecture其中显示“Driver”是什么: 我无法理解以下 ..
发布时间:2018-05-31 19:36:42 分布式计算/Hadoop

将多列中的列组合成Hive中的一列

有没有办法在Apache Hive中为explode()函数做相反的事情。 比方说,我有一个表格 id int,描述字符串,url字符串,... 从这张表中,我想创建一个表,它看起来像 id int,json string 其中 json 列将所有其他列存储为json。 “description”:“blah blah”,“url”:“http:”,... 解决方案 Hive可以访 ..
发布时间:2018-05-31 19:36:24 分布式计算/Hadoop

Hive NVL不适用于列的日期类型 - NullpointerException

我在HDFS上使用MapR Hive分发并面临以下问题。 如果表的列类型是'日期'类型,那么 NVL 功能不起作用。 它只是抛出 NullpointerException:null 甚至explain函数也抛出相同的异常。 请在这里帮忙。它是Hive发行版中的一个错误吗? 解决方案 我使用一种解决方法自己解决了问题: 对于Date类型,您 ..
发布时间:2018-05-31 19:35:50 Java开发

如何将textinputformat.record.delimiter重置为其在hive cli / beeline内的默认值?

将 textinputformat.record.delimiter 设置为非默认值,可用于加载多行文本,如以下演示所示。 但是,我无法在不退出cli的情况下将此参数设置回其默认值并重新打开。 以下任何选项都不起作用(以及其他一些试验) set textinputformat.record.delimiter ='\\\ '; set textinputformat.rec ..
发布时间:2018-05-31 19:35:35 分布式计算/Hadoop

Hive比Spark更快吗?

阅读什么是配置单元,它是一个数据库吗? ,一位同事昨天提到,他能够筛选出一张15B的桌子,并且在做了一个“group by”之后加入了另一张桌子,只用了10分钟就产生了6B个纪录!我想知道这是否会在Spark中变慢,因为现在使用DataFrames,它们可能具有可比性,但我不确定,因此这个问题。 Hive比火花?或者这个问题没有意义?对不起,因为我的无知。 他使用最新的Hive,它似乎 ..
发布时间:2018-05-31 19:35:02 分布式计算/Hadoop

Hive中的错误:底层错误:org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException:预计会有一个或多个参数

错误是这样的: > FAILED:SemanticException无法将窗口调用分解为组。至少有一个组只能依赖于输入列。同时检查循环依赖关系。 基础错误:org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException:预计会有一个或多个参数。 我认为错误来自这部分脚本: SELECT mag.co_mag ..
发布时间:2018-05-31 19:34:57 分布式计算/Hadoop

sqoop导入多个表

我们使用Cloudera CDH 4,并且能够按照预期将我们的Oracle数据库中的表导入我们的HDFS仓库。问题是我们的数据库中有数十个表,而sqoop只支持一次导入一个表。 将多个表格导入HDFS或Hive可以使用哪些选项?例如,一次将200个表从oracle导入HDFS或Hive的最佳方式是什么? 到目前为止我看到的唯一解决方案是为每个表导入创建一个sqoop作业,然后单独运行它 ..
发布时间:2018-05-31 19:34:44 分布式计算/Hadoop

如何在行中增加数组值!使用Hive SQL

我有一个包含4列的表,其中一列(项目)类型是ARRAY,另一列是字符串。 ID |物品|名称| loc _________________________________________________________________ id1 | [“item1”,“item2”,“item3”,“item4”,“item5”] |迈克| CT id2 | [“item3” ..
发布时间:2018-05-31 19:34:39 分布式计算/Hadoop

HDFS文件比较

如何比较两个HDFS文件,因为没有 diff ? 我正在考虑使用Hive表格和HDFS加载数据,然后在2个表格上使用连接语句。有没有更好的方法? 解决方案 没有提供 diff 命令与hadoop,但你可以在你的shell中使用 diff 命令实际使用重定向: diff ..
发布时间:2018-05-31 19:34:12 分布式计算/Hadoop

将多个小文件合并到Spark中的几个较大的文件中

我通过Spark使用配置单元。我在我的Spark代码中插入了分区表查询。输入数据为200 + gb。当Spark写入分区表时,它正在分散非常小的文件(kb中的文件)。所以现在输出分区表文件夹有5000多个小kb文件。我想将这些文件合并成几个大的MB文件,可能只有几个200MB的文件。 'val result7A = hiveContext.sql(“set hive.exec.dynamic ..

Hive gzip文件解压

我已经将一堆.gz文件加载到HDFS中,并且当我在其上创建一个原始表格时,在计算行数时会看到奇怪的行为。比较gz表与未压缩表的计数(*)的结果导致〜85%的差异。具有gz压缩文件的表的记录较少。有没有人看过这个? CREATE EXTERNAL TABLE IF NOT EXISTS test_gz( col1 string,col2 string,col3 string) ROW F ..
发布时间:2018-05-31 19:33:52 分布式计算/Hadoop