hiveql相关内容

熊猫数据框到Hive表

我是Python和Hive的新手。 我希望能得到一些建议。 >有没有人有关于如何将python熊猫数据框转换为配置表格的任何提示?解析方案 您的脚本应该在机器,其中hive可以使用“在路径中加载本地数据”方法加载数据。 查询熊猫数据框以创建列表列名数据类型 使用python字符串操作(基本上是连接)创建一个有效的HQL(DDL)create table语句 $ b 将熊猫数 ..
发布时间:2018-06-12 13:53:04 Python

Hive的unix_timestamp和from_unixtime函数

我的印象是 unix_timestamp 和 from_unixtime .Hive函数彼此是“反向”的。 当我尝试将时间戳字符串转换为Hive中的秒数时: SELECT unix_timestamp('10 -Jun-15 10.00.00.000000 AM','dd-MMM-yy hh.mm.ss.MS a'); 我得到1418176800。 尝试将 ..
发布时间:2018-06-12 13:52:39 其他开发

Hive中的行号功能

如何在运行select查询时为现有表生成行号? 例如: 选择row_number(),* from emp; 我正在使用hive 0.13。我无法在我的环境中访问外部罐子或udfs。 底层文件采用实木复合格式。 预先感谢! 解决方案 ROW_NUMBER()是窗口函数,因此它需要与 OVER 子句结合使用。只要不指定任何 PARTITION 。 ..
发布时间:2018-06-12 13:52:24 其他开发

HIVE中的LIMIT子句是否真的是随机的?

HIVE 文档 code>注意 LIMIT 子句返回随机选择的行。我在 800,000 记录中使用 LIMIT 1的表上运行了一个 SELECT 表,但它总是给我返回相同的记录。 我正在使用 Shark 分配,我想知道这是否与此有关预期的行为?任何想法将不胜感激。 感谢, Visakh 解决方案尽管文档声明它随机返回行,但实际上并不是这样。 它返回“随机选择的行”,因为它 ..
发布时间:2018-06-12 13:51:37 其他开发

使用Hiveql进行循环

我试图合并2个数据集,比如说A和B.数据集A有一个变量“Flag”,它取2个值。而不是将两个数据合并在一起,我试图根据“标志”变量合并2个数据集。 合并代码如下: create table new_data as 在a = bx $中选择一个。*,由A中的 作为左连接B作为b b $ b 因为我通过CLI运行Hive代码,所以我通过以下命令调用它: hi ..
发布时间:2018-06-12 13:51:29 其他开发

将这些行的数组中的配置单元行分组

User:String别名:字符串 JohnDoe John JohnDoe JDoe Roger Roger 我想将用户的所有别名在数组中,在一个新的表中看起来像这样: User:String别名:array JohnDoe [John,JDoe] Roger [Roger] 如何使用HiveQL来做到这一点?我 ..
发布时间:2018-06-12 13:48:55 其他开发

配置单元中的映射类型变量

我试图在配置单元中定义地图类型时遇到问题。根据 Hive手册,肯定有地图类型,不幸的是没有任何关于如何使用它的例子。 :-( ) 假设,我有一个包含以下列的表(用户): Name Ph CategoryName 这个“CategoryName”列有一组特定的值。希望创建一个将CategoryName映射到CategoryID的散列表,我尝试过: set h ..
发布时间:2018-06-12 13:48:52 其他开发

如何计算Hive中的中位数

我有一个配置单元表, name age sal A 45 1222 B 50 4555 c 44 8888 D 78 1222 E 12 7888 F 23 4555 我想计算年龄中位数列。 以下是我的做法 IF(计数(年龄)%2 = 0,'偶数','奇数')作为PCOUNT 从v_act_subjects_bh; ..
发布时间:2018-06-12 13:48:46 其他开发

如何将所有配置单元表从一个数据库复制到其他数据库

我在hive表中有默认数据库,其中包含80个表。 我创建了另外一个数据库,并且我想将所有表从默认数据库复制到新的数据库中。 是否有任何方法可以从一个数据库复制到其他数据库,而无需创建单独的表。 请让我知道是否有解决方案。 。 在此先感谢 解决方案 我可以考虑几个选项。 使用CTAS。 CREATE TABLE NEWDB.NEW_TABLE1 AS sel ..
发布时间:2018-06-12 13:48:33 其他开发

在Hive中查找一个月的最后一天

我的问题是:有没有办法在Hive中查找一个月的最后一天,比如Oracle SQL函数? : LAST_DAY(D_Dernier_Jour) 使用 last_day(dateString) Nexr。它根据日期字符串返回月份的最后一天,日期字符串为yyyy-MM-dd HH:mm:ss模式。 例如: SELECT last_day('2003-03-15 01:22:33')F ..
发布时间:2018-06-12 13:44:35 其他开发

如何将数据插入到Hive(0.13.1)表中?

我使用Hive版本0.13.1。尝试在现有表中插入数据时出现错误,同时使用以下查询: pre $ CREATE TABLE table1(order_num int,payment_type varchar(20),category varchar(20)); INSERT INTO TABLE table1 VALUES(151,'cash','lunch'); 错误: Pa ..
发布时间:2018-06-12 13:43:46 数据库

在配置单元中创建表格时向列添加默认值

我可以从外部文件中的数据创建配置单元表。现在我希望从上表中的数据创建另一个表,并添加具有缺省值的列。 我知道可以使用CREATE TABLE AS SELECT,但是如何添加额外的有缺省值的列? 解决方案 您可以指定从create / update表中选择哪些列。只需将默认值作为其中一列提供即可。使用UPDATE的示例如下: 创建简单表并使用值填充它: 蜂房>创建表 ..
发布时间:2018-06-12 13:43:26 其他开发

如何从历史数据中检索行程?

我在Hive中有以下表 mytable : id radar_id car_id datetime 1 A21 123 2017-03-08 17:31:19.0 2 A21 555 2017-03-08 17:32:00.0 3 A21 777 2017-03-08 17 :33:00.0 4 B15 123 2017-03-08 17:35:22.0 5 B15 5 ..
发布时间:2018-06-12 13:43:13 其他开发

Hive LEFT SEMI JOIN for'NOT EXISTS'

我有两个包含一个键列的表格。表a中的键是表b中所有键的子集。我需要从表b中选择不在表a中的键。 以下是来自Hive手册的引文: “LEFT SEMI JOIN实现不相关的IN / EXISTS子查询语义从Hive 0.13开始,使用子查询支持IN / NOT IN / EXISTS / NOT EXISTS运算符,因此大多数JOIN不必手动执行。是仅在连接条件(ON子句)中引用右侧表,而不 ..
发布时间:2018-06-12 13:42:37 其他开发

Hive Data根据时间戳选择最新值

C1,C2,Process TimeStamp,InsertDateTimeStamp p1, v1,2014-01-30 12:15:23,2013-10-01 05:34:23 p1,v2,2014-01-31 05:11:34,2013-12-01 06:12 :31 p1,v3,2014-01-31 07:16:05,2012-09-01 07:45:20 p2,v4,2 ..
发布时间:2018-06-12 13:42:27 其他开发

使用HiveQL爆炸结构数组

表 ( USER_ID BIGINT, PURCHASED_ITEM ARRAY> $(pre pre $ CREATE TABLE IF NOT EXISTS) b $ b)行格式 DELIMITED FIELDS TERMINATED BY' - ' 以''结尾的集合项目',' 以''结尾的 ..
发布时间:2018-06-12 13:42:10 其他开发