hiveql相关内容
我想从HDFS中包含纪元的文本文件创建一个外部Hive表。假设文件位于 /user/me/test.txt 处。以下是档案内容: 1354183921 1354183922 我已经安装了Hive 0.8.1并且应该可以使用Timestamp类型,所以我创建了这个表: 分群> CREATE EXTERNAL TABLE test1(epoch Timest
..
select * from Table_name limit 5; 从表名限制5中选择col1_name,col2_name; 当我运行第一个查询时,将不会调用MapReduce,而调用其他MapReduce。请解释原因。 解决方案 为了理解原因,首先我们需要知道map和reduce阶段的含义: 地图:基本上是一个按排序顺序过滤和组织数据的过滤器。对于例如它将从第二个查询
..
我们如何在Hive中获得当前系统日期?在MySQL中,我们选择了now(),任何人都可以帮助我获得查询结果。我对Hive非常陌生,是否有适当的Hive文档,它提供了有关伪列的详细信息以及内置函数。 div> 根据语言手册,您可以使用 unix_timestamp()以获取“使用默认时区的当前时间戳”。如果您需要将其转换为更具人类可读性的内容,则可以使用 from_unixtime(unix_ti
..
在 Hive 中向外部表格添加分区之后,我如何更新/放弃它? ALTER TABLE logs PARTITION (year = 2012,month = 12,day = 18) SET LOCATION'hdfs:// user / darcy / logs / 2012/12/18'; 该命令不移动旧数据,也不删除旧数据。它只是将分区设置到新位置。 要
..
我使用Hive来批量处理我的空间数据库。我的跟踪表看起来像这样: object | lat |长|时间戳 1 | X11 | X12 | T11 1 | X21 | X22 | T12 2 | X11 | X12 | T21 1 | X31 | X22 | T13 2 | X21 | X22 | T22 我想将每个对象的每个纬度长度映
..
我有2行如下: 941 78 252 3008 86412 1718502 257796 2223252 292221 45514 114894 980 78 258 3064 88318 1785623 269374 2322408 305467 46305 116970 我想插入当前的时间戳同时插入每一行。 终于在我的蜂巢表行中应该如下所示:
..
MySQL可以自动记录created_at和updated_at时间戳。 Hive是否提供类似的机制?如果没有,那么实现此功能的最佳方法是什么? 解决方案 Hive不提供这种机制。您可以通过在您的select中使用UDF来实现此目的: from_unixtime(unix_timestamp())为created_at 。请注意,这将在每个映射器或缩减器中执行,并可能返回不同的值。如果您需要所有
..
我是一个新手。我想知道 hive-site.xml 和 hive-default.xml 文件位置c> hive-0.13.1 版本。 我已经下载了 hive0.13.1-bin 版本从下面的位置。 http://apache.mirrors.pair.com/hive /hive-0.13.1/ 提取并配置配置单元环境变量。 我可以运行命令(创建表,显示,加载数据,查询表)。。
..
在我运行Hive查询的任何目录中创建文件夹 metastore_db 。有没有办法在一个定义的位置只有一个 metastore_db ,并阻止它在各个位置被创建?它与 hive.metastore.local ? 解决方案 这里感兴趣的属性是 javax.jdo.option.ConnectionURL 。此属性的默认值是 jdbc:derby:; databaseName = metas
..
在Hive中我想从表中动态提取信息,将其保存在一个变量中并进一步使用它。请考虑以下示例,其中检索列var的最大值并希望将其用作后续查询中的条件。 设置maximo =从表中选择max(var); 从 表格 中选择 * 其中 var = $ {hiveconf:maximo} 设置maximo =从表中选择max(var); $ {hive
..
我目前正在使用Hive进行一些数据探索,无法解释以下行为。假设我有一个带有字段master_id的表(名为mytable)。 当我计算我得到的行数时 select count(*)as c from mytable c 1129563 如果我要计算具有非null master_id的行数,我会得到一个更高的数字 select count(*)as m
..
我有一个具有以下模式的配置表: COOKIE | PRODUCT_ID | CAT_ID |数量 1234123 [1,2,3] [r,t,null] [2,1,null] 我如何规范化数组,以便得到以下结果 COOKIE | PRODUCT_ID | CAT_ID |数量 1234123 [1] [r] [2] 1234123 [2] [t]
..
我在Hive中创建了一个外部表,它使用来自HDFS中的Parquet存储的数据。 当HDFS中的数据被删除时,桌子。当数据再次插入到HDFS中的相同位置时,表格不会更新以包含新数据。如果我在包含数据的现有表中插入新记录,则在运行Hive查询时不会显示新数据。 如何在Hive中创建表: p> CREATE EXTERNAL TABLE节点(id字符串)STORED AS PARQ
..
1)我已经使用“ADD JAR /home/hduser/softwares/hive/hive-serdes-1.0-SNAPSHOT.jar”添加了serde jar文件。 2)创建表 3)表创建成功 4)但是当我执行任何select查询它抛出文件未找到异常 hive>从tab_tweets中选择count(*); 查询ID = hduser_201506041
..
创建日期ID1姓名1年龄1性别1姓名2 ID2年龄2性别2 ID3姓名3年龄3性别3 ... 2014-02-01 1 ABC 21 M MNP 2 22 F 3 XYZ 25 M 2015-06-06 11 LMP 31 F PLL 12 42 M 13 UIP 37 F 此表可能有任何编号。重复设置4列对。这4列的顺序也不是固定的,可能有1或2个列不重复,像creat
..
类似于 选择哈希(日期,令牌1,令牌2 ,参数[“a”],参数[“b”],参数[“c”]);我在150M行上运行它。对于60%的行,它正确地散列它。对于其余的行,它给出0. null或1作为散列。我看着导致坏散列的行,我没有看到行有任何问题。什么可能导致它? 解决方案 只有当所有提供的参数为空或空时,哈希函数才返回0。 如果您熟悉Java,那么您可以检查散列函数。 散列函数在内
..
我想将我的文件名的第一部分作为我的Hive表中的一列 我的文件名是:20151102114450.46400_Always_1446482638967 .xml 我在Microsoft Azure的Hive中使用正则表达式编写了一个查询(查询下面)它的一部分,即20151102114450 但是当我运行查询时,我得到的输出为20151102164358
..
我无法在配置单元1.2上运行 ALTER TABLE MY_EXTERNAL_TABLE RECOVER PARTITIONS; ,但是当我运行替换 MSCK REPAIR TABLE MY_EXTERNAL_TABLE 它只是列出了Hive Meta Store中没有的分区并且没有添加分区。基于hive-exec的源代码,我可以在 org / apache / hadoop / hive / q
..
我正在访问的表有一个' xxdatetime'列中添加了unix时间戳和'eventdate'列,日期为yyyy-mm-dd。 在Impala中,答案很简单: where eventdate> to_date(days_sub(now(),10)) 我在Hive中使用了它的一个变体,因为我猜它正在扫描整个表格并且表格是MASSIVE: where dated
..
查询 'set hive.exec.dynamic.partition = true; set hive.exec.dynamic.partition.mode = nonstrict; set hive.execution.engine = tez; INSERT OVERWRITE TABLE table1 PARTITION(date)select col1,CONCAT(COA
..