hive相关内容
我们如何修改Hive中多列的数据类型? CREATE TABLE test_change(int,b int,c int); ALTER TABLE test_change CHANGE a a string b b doube c c decimal(11,2); 解决方案 据我所知,你不能。在蜂巢文档可以发现以下: ALTER TABLE T
..
$ b 我已经下载了Hive的最新稳定版本, code在java.lang.Class.forName0中的 (本地方法) at java at java.lang.Class.FileError .lang.Class.forName(Class.java:264) at org.apache.hadoop.util.RunJar.main(RunJar.java:149) 导致:
..
我试图在Hive中使用以下内容: set TODAY =“2013-11-04”; //这是可行的 SET TODAY = to_date(from_unixtime(unix_timestamp())); //这不是。 设置TODAY; TODAY = to_date(from_unixtime(unix_timestamp())) 有什么建议? 解决方案 S
..
我试图了解hive和hadoop如何相互作用。从我读过的教程中,我看到在运行HIVE查询之前,您运行map / reduce作业来获取输入数据。这对我来说似乎适得其反,如果我已经运行map / reduce作业并以易于解析的格式获取数据,为什么不将数据放入传统数据库中。 感谢您的帮助, Nathan 解决方案 Hive对存储在HDFS上的文件进行操作。除了最简单的查询之外,配置单元
..
我试图在架构方面理解 hive ,我指的是Tom White的关于Hadoop的书。 我遇到以下有关hive的术语: Hive Services , hiveserver2 , metacon 等等。 参考下图(Hadoop:权威指南)。 Hive架构: MetaStore配置: Hive Architecture其中显示“Driver”是什么: 我无法理解以下
..
有没有办法在Apache Hive中为explode()函数做相反的事情。 比方说,我有一个表格 id int,描述字符串,url字符串,... 从这张表中,我想创建一个表,它看起来像 id int,json string 其中 json 列将所有其他列存储为json。 “description”:“blah blah”,“url”:“http:”,... 解决方案 Hive可以访
..
我已经定义了一个外部表日志和原始服务器上的日志与hdfs / data / logs / 上的外部位置分区。我有一个MapReduce作业,它获取这些日志文件并将它们拆分并存储在上述文件夹下。像 “/ data / logs / dt = 2012-10-01 / server01 /” “/ data / logs / dt = 2012-10-01 / server02 /“ ...
..
我在HDFS上使用MapR Hive分发并面临以下问题。 如果表的列类型是'日期'类型,那么 NVL 功能不起作用。 它只是抛出 NullpointerException:null 甚至explain函数也抛出相同的异常。 请在这里帮忙。它是Hive发行版中的一个错误吗? 解决方案 我使用一种解决方法自己解决了问题: 对于Date类型,您
..
我正在寻找一种基于逗号分隔的数据分隔列的方法。以下是我的数据集 id col1 col2 1 5,6 7,8 我想得到结果 id col1 col2 1 5 7 1 6 8 索引应该匹配,因为我需要相应地获取结果。 我尝试了下面的查询,但它返回了笛卡尔积。 查询: SELECT col3,col4
..
将 textinputformat.record.delimiter 设置为非默认值,可用于加载多行文本,如以下演示所示。 但是,我无法在不退出cli的情况下将此参数设置回其默认值并重新打开。 以下任何选项都不起作用(以及其他一些试验) set textinputformat.record.delimiter ='\\\ '; set textinputformat.rec
..
我在配置单元中有2个有Order和Order_Detail(具有1:n关系并加入order_id)的表,我尝试使用hive复杂数据类型 - 地图[结构]加载到单个表中。 说ORDER有以下数据, Order_id total_amount customer 123 10.00 1 456 12.00 2 和ORDER_DETAILS有 Order_id Orde
..
阅读什么是配置单元,它是一个数据库吗? ,一位同事昨天提到,他能够筛选出一张15B的桌子,并且在做了一个“group by”之后加入了另一张桌子,只用了10分钟就产生了6B个纪录!我想知道这是否会在Spark中变慢,因为现在使用DataFrames,它们可能具有可比性,但我不确定,因此这个问题。 Hive比火花?或者这个问题没有意义?对不起,因为我的无知。 他使用最新的Hive,它似乎
..
错误是这样的: > FAILED:SemanticException无法将窗口调用分解为组。至少有一个组只能依赖于输入列。同时检查循环依赖关系。 基础错误:org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException:预计会有一个或多个参数。 我认为错误来自这部分脚本: SELECT mag.co_mag
..
我们使用Cloudera CDH 4,并且能够按照预期将我们的Oracle数据库中的表导入我们的HDFS仓库。问题是我们的数据库中有数十个表,而sqoop只支持一次导入一个表。 将多个表格导入HDFS或Hive可以使用哪些选项?例如,一次将200个表从oracle导入HDFS或Hive的最佳方式是什么? 到目前为止我看到的唯一解决方案是为每个表导入创建一个sqoop作业,然后单独运行它
..
我有一个包含4列的表,其中一列(项目)类型是ARRAY,另一列是字符串。 ID |物品|名称| loc _________________________________________________________________ id1 | [“item1”,“item2”,“item3”,“item4”,“item5”] |迈克| CT id2 | [“item3”
..
我在执行oozie sqoop动作时遇到问题。 在日志中,我可以看到sqoop能够将数据导入临时目录,然后sqoop创建配置单元脚本来导入数据。 导入临时数据失败hive。 在日志中,我没有收到任何异常。 以下是我正在使用的sqoop操作。
..
如何比较两个HDFS文件,因为没有 diff ? 我正在考虑使用Hive表格和HDFS加载数据,然后在2个表格上使用连接语句。有没有更好的方法? 解决方案 没有提供 diff 命令与hadoop,但你可以在你的shell中使用 diff 命令实际使用重定向: diff
..
我通过Spark使用配置单元。我在我的Spark代码中插入了分区表查询。输入数据为200 + gb。当Spark写入分区表时,它正在分散非常小的文件(kb中的文件)。所以现在输出分区表文件夹有5000多个小kb文件。我想将这些文件合并成几个大的MB文件,可能只有几个200MB的文件。 'val result7A = hiveContext.sql(“set hive.exec.dynamic
..
我有一个Log文件,我需要用REGEX存储数据。我试着下面的查询,但加载所有NULL值。我已经使用 http://www.regexr.com/ 检查了REGEX,其数据工作正常。 CREATE EXTERNAL TABLE IF NOT EXISTS avl(imei STRING,packet STRING) ROW FORMAT SERDE'org.apache。 hadoop.h
..
我已经将一堆.gz文件加载到HDFS中,并且当我在其上创建一个原始表格时,在计算行数时会看到奇怪的行为。比较gz表与未压缩表的计数(*)的结果导致〜85%的差异。具有gz压缩文件的表的记录较少。有没有人看过这个? CREATE EXTERNAL TABLE IF NOT EXISTS test_gz( col1 string,col2 string,col3 string) ROW F
..