Hive将表组织到分区中.它是一种根据分区列(如日期,城市和部门)的值将表划分为相关部分的方法.使用分区,很容易查询部分数据.
表或分区被细分为桶,,为数据提供额外的结构可用于更有效的查询. Bucketing基于表的某些列的哈希函数的值来工作.
例如,名为 Tab1 的表包含员工数据,例如id,name, dept和yoj(即加入年份).假设您需要检索2012年加入的所有员工的详细信息.查询将在整个表中搜索所需信息.但是,如果使用年份对员工数据进行分区并将其存储在单独的文件中,则会缩短查询处理时间.以下示例显示如何对文件及其数据进行分区:
以下文件包含employeedata表.
/tab1/employeedata/file1
id, name, dept, yoj 1, gopal, TP, 2012 2, kiran, HR, 2012 3, kaleel,SC, 2013 4, Prasanth, SC, 2013
以上数据使用年份分成两个文件./p>
/tab1/employeedata/2012/file2
1, gopal, TP, 2012 2, kiran, HR, 2012
/tab1/employeedata/2013/file3
3, kaleel,SC, 2013 4, Prasanth, SC, 2013
我们可以通过更改表来为表添加分区.假设我们有一个名为 employee 的表,其中包含Id,Name,Salary,Designation,Dept和yoj等字段.
ALTER TABLE table_name ADD [IF NOT EXISTS] PARTITION partition_spec [LOCATION 'location1'] partition_spec [LOCATION 'location2'] ...; partition_spec: : (p_column = p_col_value, p_column = p_col_value, ...)
以下查询是用于向employee表添加分区.
hive> ALTER TABLE employee > ADD PARTITION (year=’2012’) > location '/2012/part2012';
此命令的语法如下.
ALTER TABLE table_name PARTITION partition_spec RENAME TO PARTITION partition_spec;
以下查询用于重命名分区:
hive> ALTER TABLE employee PARTITION (year=’1203’) > RENAME TO PARTITION (Yoj=’1203’);
以下语法用于删除分区:
ALTER TABLE table_name DROP [IF EXISTS] PARTITION partition_spec, PARTITION partition_spec,...;
以下查询用于删除分区:
hive> ALTER TABLE employee DROP [IF EXISTS] > PARTITION (year=’1203’);