hive 第100页 - IT屋-程序员软件开发技术分享社区

更改配置单元多列

我们如何修改Hive中多列的数据类型？ CREATE TABLE test_change（int，b int，c int）; ALTER TABLE test_change CHANGE a a string b b doube c c decimal（11,2）; 解决方案据我所知，你不能。在蜂巢文档可以发现以下： ALTER TABLE T ..

发布时间：2018-05-31 19:38:15 hadoop hive alter 分布式计算/Hadoop

启动Hive时出错：java.lang.NoClassDefFoundError：org / apache / hadoop / hive / conf / HiveConf

$ b 我已经下载了Hive的最新稳定版本， code在java.lang.Class.forName0中的（本地方法） at java at java.lang.Class.FileError .lang.Class.forName（Class.java:264） at org.apache.hadoop.util.RunJar.main（RunJar.java:149）导致： ..

发布时间：2018-05-31 19:38:12 hadoop hbase hive 分布式计算/Hadoop

Hive变量替换功能

我试图在Hive中使用以下内容： set TODAY =“2013-11-04”; //这是可行的 SET TODAY = to_date（from_unixtime（unix_timestamp（）））; //这不是。设置TODAY; TODAY = to_date（from_unixtime（unix_timestamp（）））有什么建议？解决方案 S ..

发布时间：2018-05-31 19:38:07 hadoop hive 分布式计算/Hadoop

查询执行时，Hive是否运行hadoop？

我试图了解hive和hadoop如何相互作用。从我读过的教程中，我看到在运行HIVE查询之前，您运行map / reduce作业来获取输入数据。这对我来说似乎适得其反，如果我已经运行map / reduce作业并以易于解析的格式获取数据，为什么不将数据放入传统数据库中。感谢您的帮助， Nathan 解决方案 Hive对存储在HDFS上的文件进行操作。除了最简单的查询之外，配置单元 ..

发布时间：2018-05-31 19:37:55 database hadoop hive 分布式计算/Hadoop

Hive服务，HiveServer2& MetaStore服务？

我试图在架构方面理解 hive ，我指的是Tom White的关于Hadoop的书。我遇到以下有关hive的术语： Hive Services ， hiveserver2 ， metacon 等等。参考下图（Hadoop：权威指南）。 Hive架构： MetaStore配置： Hive Architecture其中显示“Driver”是什么：我无法理解以下 ..

发布时间：2018-05-31 19:36:42 hadoop hive hive-metastore 分布式计算/Hadoop

将多列中的列组合成Hive中的一列

有没有办法在Apache Hive中为explode（）函数做相反的事情。比方说，我有一个表格 id int，描述字符串，url字符串，... 从这张表中，我想创建一个表，它看起来像 id int，json string 其中 json 列将所有其他列存储为json。 “description”：“blah blah”，“url”：“http：”，... 解决方案 Hive可以访 ..

发布时间：2018-05-31 19:36:24 hadoop hive 分布式计算/Hadoop

从MapReduce作业中将分区添加到Hive

我已经定义了一个外部表日志和原始服务器上的日志与hdfs / data / logs / 上的外部位置分区。我有一个MapReduce作业，它获取这些日志文件并将它们拆分并存储在上述文件夹下。像 “/ data / logs / dt = 2012-10-01 / server01 /” “/ data / logs / dt = 2012-10-01 / server02 /“ ... ..

发布时间：2018-05-31 19:36:09 hadoop mapreduce hive partitioning 分布式计算/Hadoop

Hive NVL不适用于列的日期类型 - NullpointerException

我在HDFS上使用MapR Hive分发并面临以下问题。如果表的列类型是'日期'类型，那么 NVL 功能不起作用。它只是抛出 NullpointerException：null 甚至explain函数也抛出相同的异常。请在这里帮忙。它是Hive发行版中的一个错误吗？解决方案我使用一种解决方法自己解决了问题：对于Date类型，您 ..

发布时间：2018-05-31 19:35:50 java hadoop nullpointerexception hive Java开发

配置单元 - 在多行上拆分分隔列，根据位置进行选择

我正在寻找一种基于逗号分隔的数据分隔列的方法。以下是我的数据集 id col1 col2 1 5,6 7,8 我想得到结果 id col1 col2 1 5 7 1 6 8 索引应该匹配，因为我需要相应地获取结果。我尝试了下面的查询，但它返回了笛卡尔积。查询： SELECT col3，col4 ..

发布时间：2018-05-31 19:35:48 hadoop hive hiveql 分布式计算/Hadoop

如何将textinputformat.record.delimiter重置为其在hive cli / beeline内的默认值？

将 textinputformat.record.delimiter 设置为非默认值，可用于加载多行文本，如以下演示所示。但是，我无法在不退出cli的情况下将此参数设置回其默认值并重新打开。以下任何选项都不起作用（以及其他一些试验） set textinputformat.record.delimiter ='\\\ '; set textinputformat.rec ..

发布时间：2018-05-31 19:35:35 hadoop mapreduce hive hiveql 分布式计算/Hadoop

如何使用来自另一个平面/简单蜂巢表的map [structs]加载配置单元表

我在配置单元中有2个有Order和Order_Detail（具有1：n关系并加入order_id）的表，我尝试使用hive复杂数据类型 - 地图[结构]加载到单个表中。说ORDER有以下数据， Order_id total_amount customer 123 10.00 1 456 12.00 2 和ORDER_DETAILS有 Order_id Orde ..

发布时间：2018-05-31 19:35:26 json hadoop map struct hive 分布式计算/Hadoop

Hive比Spark更快吗？

阅读什么是配置单元，它是一个数据库吗？，一位同事昨天提到，他能够筛选出一张15B的桌子，并且在做了一个“group by”之后加入了另一张桌子，只用了10分钟就产生了6B个纪录！我想知道这是否会在Spark中变慢，因为现在使用DataFrames，它们可能具有可比性，但我不确定，因此这个问题。 Hive比火花？或者这个问题没有意义？对不起，因为我的无知。他使用最新的Hive，它似乎 ..

发布时间：2018-05-31 19:35:02 hadoop apache-spark hive apache-tez bigdata 分布式计算/Hadoop

Hive中的错误：底层错误：org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException：预计会有一个或多个参数

错误是这样的： > FAILED：SemanticException无法将窗口调用分解为组。至少有一个组只能依赖于输入列。同时检查循环依赖关系。基础错误：org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException：预计会有一个或多个参数。我认为错误来自这部分脚本： SELECT mag.co_mag ..

发布时间：2018-05-31 19:34:57 sql hadoop plsql hive hiveql 分布式计算/Hadoop

sqoop导入多个表

我们使用Cloudera CDH 4，并且能够按照预期将我们的Oracle数据库中的表导入我们的HDFS仓库。问题是我们的数据库中有数十个表，而sqoop只支持一次导入一个表。将多个表格导入HDFS或Hive可以使用哪些选项？例如，一次将200个表从oracle导入HDFS或Hive的最佳方式是什么？到目前为止我看到的唯一解决方案是为每个表导入创建一个sqoop作业，然后单独运行它 ..

发布时间：2018-05-31 19:34:44 hadoop hive hdfs sqoop 分布式计算/Hadoop

如何在行中增加数组值！使用Hive SQL

发布时间：2018-05-31 19:34:39 hadoop hive 分布式计算/Hadoop

oozie Sqoop操作无法将数据导入配置单元

我在执行oozie sqoop动作时遇到问题。在日志中，我可以看到sqoop能够将数据导入临时目录，然后sqoop创建配置单元脚本来导入数据。导入临时数据失败hive。在日志中，我没有收到任何异常。以下是我正在使用的sqoop操作。 ..

发布时间：2018-05-31 19:34:19 hadoop hive bigdata sqoop oozie 分布式计算/Hadoop

HDFS文件比较

如何比较两个HDFS文件，因为没有 diff ？我正在考虑使用Hive表格和HDFS加载数据，然后在2个表格上使用连接语句。有没有更好的方法？解决方案没有提供 diff 命令与hadoop，但你可以在你的shell中使用 diff 命令实际使用重定向： diff ..

发布时间：2018-05-31 19:34:12 hadoop hive hdfs 分布式计算/Hadoop

我通过Spark使用配置单元。我在我的Spark代码中插入了分区表查询。输入数据为200 + gb。当Spark写入分区表时，它正在分散非常小的文件（kb中的文件）。所以现在输出分区表文件夹有5000多个小kb文件。我想将这些文件合并成几个大的MB文件，可能只有几个200MB的文件。 'val result7A = hiveContext.sql（“set hive.exec.dynamic ..

发布时间：2018-05-31 19:33:59 scala hadoop apache-spark hive apache-spark-sql 分布式计算/Hadoop

在Hive中获取空值创建&用REGEX加载查询

我有一个Log文件，我需要用REGEX存储数据。我试着下面的查询，但加载所有NULL值。我已经使用 http://www.regexr.com/ 检查了REGEX，其数据工作正常。 CREATE EXTERNAL TABLE IF NOT EXISTS avl（imei STRING，packet STRING） ROW FORMAT SERDE'org.apache。 hadoop.h ..

发布时间：2018-05-31 19:33:57 regex hadoop null hive 分布式计算/Hadoop

Hive gzip文件解压

我已经将一堆.gz文件加载到HDFS中，并且当我在其上创建一个原始表格时，在计算行数时会看到奇怪的行为。比较gz表与未压缩表的计数（*）的结果导致〜85％的差异。具有gz压缩文件的表的记录较少。有没有人看过这个？ CREATE EXTERNAL TABLE IF NOT EXISTS test_gz（ col1 string，col2 string，col3 string） ROW F ..

发布时间：2018-05-31 19:33:52 hadoop gzip hive 分布式计算/Hadoop

hive相关内容