hiveddl相关内容
我有一个简单的蜂窝表: hive> show create table tweets; OK CREATE EXTERNAL TABLE `tweets`( `json_body` string COMMENT 'from deserializer') ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe' STORED
..
在相同位置创建托管表和外部表。 当您删除内部表时,数据文件会发生什么情况? 是否会对外部表或外部表的文件位置造成问题? 推荐答案 该表是一个元数据,其中包含列规范、位置路径、表类型、SerDe、统计信息、授权等。删除位置文件夹或文件不会删除该表,只会删除数据。配置单元中的表和数据是松散连接的,这非常方便,因为您不仅可以使用配置单元管理数据,还可以在由其他一些工具生成的现有数据之上创建
..
我正在使用加载数据语法将 csv 文件加载到表中.该文件与 hive 接受的格式相同.但是在发出加载数据后,最后2列在选择时返回null. 1750,651,'2013-03-11','2013-03-17'1751,652,'2013-03-18','2013-03-24'1752,653,'2013-03-25','2013-03-31'1753,654,'2013-04-01','2013
..
我在 hive 中做了一些自动脚本的一些查询,我们发现我们需要不时地从表中清除数据并插入新的.我们正在考虑什么可以更快? INSERT OVERWRITE TABLE SOME_TABLESELECT * FROM OTHER_TABLE; 或者这样做更快: DROP TABLE SOME_TABLE;创建表 SOME_TABLE (STUFFS);插入表格SELECT * FROM OTH
..
我有1000张表,需要一一查看describe ;.不是一个一个运行,你能不能给我一个命令来一次获取“N"个表. 解决方案 查询 Metastore 演示 蜂巢 创建数据库 my_db_1;创建数据库 my_db_2;创建数据库 my_db_3;创建表 my_db_1.my_tbl_1 (i int);创建表 my_db_2.my_tbl_2 (c1 string,c2 d
..
我有一个分区如下的表: TABLE 日志分区(年 = 2019,月 = 06,日 = 18) 分区 'year'、'month' 和 'day' 为字符串格式. 我需要删除保留过去 7 天分区的分区.并且需要每周运行作业,以便日志表在每周开始时有 7 天的日志. 解决方案 您可以在分区规范中使用
..
是否可以使用 Hive 创建 n 个指向单个 hdfs 路径的外部表.如果是,有什么优点和局限性. 解决方案 可以在 HDFS 的同一位置上创建多个表(同时托管和外部). 在相同数据之上创建具有完全相同架构的表根本没有用,但是您可以创建具有不同列数的不同表,例如使用 RegexSerDe 创建具有不同解析列的不同表,因此您可以有不同的这些表中的模式.您可以对 Hive 中的这些表拥有
..
我正在使用以下命令在 Hive 中创建一个新表: CREATE TABLE new_table AS select * from old_table; 我的问题是在创建表后,它为每个分区生成多个文件 - 而我只需要每个分区一个文件. 如何在表格中定义它?谢谢! 解决方案 有很多可能的解决方案: 1) 在查询的末尾添加 distribute by partition key.
..
我使用以下命令创建了 hive 外部表: 使用 hive2;创建外部表 depTable (depId int comment 'This is the unique id for each dep', depName string,location string) comment '部门表' 行格式以“,"结尾的分隔字段存储为文本文件位置“/dataDir/"; 现在,当我查看 HDFS
..
假设我有两个配置单元表, table_1 和 table_2 .我使用: ALTER TABLE table_2添加分区(col = val)位置[table_1_location] 现在, table_2 将在 col = val 的分区中将数据存储在 table_1 中. 我想做的就是逆转此过程.我希望 table_2 不在 col = val 上具有分区,并且我希望table_
..
我有一个分区如下的表: TABLE logs PARTITION(year = 2019, month = 06, day = 18) 分区'year','month'和'day'均为字符串格式. 我需要删除分区,保留最近7天的分区. 并且需要每周运行一次作业,以便日志表在每周开始时会有7天的日志. 解决方案 您可以在分区规范中使用
..
在创建配置单元表时,我可以将"LOCATION"指向hdfs中存在数据的位置.我还是需要加载数据,还是可以直接在Hive上获取数据? 解决方案 您可以在创建表时指定任何位置,并且可以访问数据.如果表已分区,则使用ALTER TABLE ADD PARTITION或MSCK REPAIR TABLE table_name或Amazon版本ALTER TABLE table_name RECO
..
我有一个CSV文件,其中包含以下格式的日期和时间戳记值。例如: Col1 | col2 01JAN2019 | 01JAN2019:17:34:41 但是当我在create语句中将Col1定义为Date并将Col2定义为Timestamp时,Hive表仅返回 NULL 当我查询时。 如果不存在则创建外部表my_schema.my_table (Col1日期,
..