hiveql相关内容

如何创建列类型为Timestamp的外部Hive表

我想从HDFS中包含纪元的文本文件创建一个外部Hive表。假设文件位于 /user/me/test.txt 处。以下是档案内容: 1354183921 1354183922 我已经安装了Hive 0.8.1并且应该可以使用Timestamp类型,所以我创建了这个表: 分群> CREATE EXTERNAL TABLE test1(epoch Timest ..
发布时间:2018-06-12 13:41:24 其他开发

你能解释何时以及为什么在配置单元中调用mapreduce

select * from Table_name limit 5; 从表名限制5中选择col1_name,col2_name; 当我运行第一个查询时,将不会调用MapReduce,而调用其他MapReduce。请解释原因。 解决方案 为了理解原因,首先我们需要知道map和reduce阶段的含义: 地图:基本上是一个按排序顺序过滤和组织数据的过滤器。对于例如它将从第二个查询 ..
发布时间:2018-06-12 13:41:09 其他开发

如何在Hive SQL中选择当前日期

我们如何在Hive中获得当前系统日期?在MySQL中,我们选择了now(),任何人都可以帮助我获得查询结果。我对Hive非常陌生,是否有适当的Hive文档,它提供了有关伪列的详细信息以及内置函数。 div> 根据语言手册,您可以使用 unix_timestamp()以获取“使用默认时区的当前时间戳”。如果您需要将其转换为更具人类可读性的内容,则可以使用 from_unixtime(unix_ti ..
发布时间:2018-06-12 13:40:20 其他开发

如何更新/删除一个蜂巢分区?

在 Hive 中向外部表格添加分区之后,我如何更新/放弃它? ALTER TABLE logs PARTITION (year = 2012,month = 12,day = 18) SET LOCATION'hdfs:// user / darcy / logs / 2012/12/18'; 该命令不移动旧数据,也不删除旧数据。它只是将分区设置到新位置。 要 ..
发布时间:2018-06-12 13:39:48 其他开发

我如何在配置单元中添加时间戳列

我有2行如下: 941 78 252 3008 86412 1718502 257796 2223252 292221 45514 114894 980 78 258 3064 88318 1785623 269374 2322408 305467 46305 116970 我想插入当前的时间戳同时插入每一行。 终于在我的蜂巢表行中应该如下所示: ..
发布时间:2018-06-12 13:39:14 其他开发

如何在Hive中记录created_at和updated_at时间戳?

MySQL可以自动记录created_at和updated_at时间戳。 Hive是否提供类似的机制?如果没有,那么实现此功能的最佳方法是什么? 解决方案 Hive不提供这种机制。您可以通过在您的select中使用UDF来实现此目的: from_unixtime(unix_timestamp())为created_at 。请注意,这将在每个映射器或缩减器中执行,并可能返回不同的值。如果您需要所有 ..
发布时间:2018-06-12 13:39:07 其他开发

hive0.13.1中的hive-site.xml路径

我是一个新手。我想知道 hive-site.xml 和 hive-default.xml 文件位置c> hive-0.13.1 版本。 我已经下载了 hive0.13.1-bin 版本从下面的位置。 http://apache.mirrors.pair.com/hive /hive-0.13.1/ 提取并配置配置单元环境变量。 我可以运行命令(创建表,显示,加载数据,查询表)。。 ..
发布时间:2018-06-12 13:38:07 其他开发

在我运行Hive的任何地方创建metastore_db

在我运行Hive查询的任何目录中创建文件夹 metastore_db 。有没有办法在一个定义的位置只有一个 metastore_db ,并阻止它在各个位置被创建?它与 hive.metastore.local ? 解决方案 这里感兴趣的属性是 javax.jdo.option.ConnectionURL 。此属性的默认值是 jdbc:derby:; databaseName = metas ..
发布时间:2018-06-12 13:36:58 其他开发

HiveQL:使用查询结果作为变量

在Hive中我想从表中动态提取信息,将其保存在一个变量中并进一步使用它。请考虑以下示例,其中检索列var的最大值并希望将其用作后续查询中的条件。 设置maximo =从表中选择max(var); 从 表格 中选择 * 其中 var = $ {hiveconf:maximo} 设置maximo =从表中选择max(var); $ {hive ..
发布时间:2018-06-12 13:35:57 其他开发

HIVE选择计数(*)非空返回的值高于选择计数(*)

我目前正在使用Hive进行一些数据探索,无法解释以下行为。假设我有一个带有字段master_id的表(名为mytable)。 当我计算我得到的行数时 select count(*)as c from mytable c 1129563 如果我要计算具有非null master_id的行数,我会得到一个更高的数字 select count(*)as m ..
发布时间:2018-06-12 13:33:56 其他开发

Hive爆炸/横向视图多个阵列

我有一个具有以下模式的配置表: COOKIE | PRODUCT_ID | CAT_ID |数量 1234123 [1,2,3] [r,t,null] [2,1,null] 我如何规范化数组,以便得到以下结果 COOKIE | PRODUCT_ID | CAT_ID |数量 1234123 [1] [r] [2] 1234123 [2] [t] ..
发布时间:2018-06-12 13:33:45 其他开发

如何制作一个自动更新Hive的表格

我在Hive中创建了一个外部表,它使用来自HDFS中的Parquet存储的数据。 当HDFS中的数据被删除时,桌子。当数据再次插入到HDFS中的相同位置时,表格不会更新以包含新数据。如果我在包含数据的现有表中插入新记录,则在运行Hive查询时不会显示新数据。 如何在Hive中创建表: p> CREATE EXTERNAL TABLE节点(id字符串)STORED AS PARQ ..
发布时间:2018-06-06 11:14:11 其他开发

Hadoop-Hive |在Hive中将单行列转换为多行

创建日期ID1姓名1年龄1性别1姓名2 ID2年龄2性别2 ID3姓名3年龄3性别3 ... 2014-02-01 1 ABC 21 M MNP 2 22 F 3 XYZ 25 M 2015-06-06 11 LMP 31 F PLL 12 42 M 13 UIP 37 F 此表可能有任何编号。重复设置4列对。这4列的顺序也不是固定的,可能有1或2个列不重复,像creat ..
发布时间:2018-06-01 12:48:51 分布式计算/Hadoop

Hive哈希函数导致0,null和1,为什么?

类似于 选择哈希(日期,令牌1,令牌2 ,参数[“a”],参数[“b”],参数[“c”]);我在150M行上运行它。对于60%的行,它正确地散列它。对于其余的行,它给出0. null或1作为散列。我看着导致坏散列的行,我没有看到行有任何问题。什么可能导致它? 解决方案 只有当所有提供的参数为空或空时,哈希函数才返回0。 如果您熟悉Java,那么您可以检查散列函数。 散列函数在内 ..
发布时间:2018-06-01 12:47:39 数据库