为什么我们需要将外部表移动到托管配置单元表? [英] Why we need to move external table to managed hive table?

查看:45
本文介绍了为什么我们需要将外部表移动到托管配置单元表?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我是Hadoop和Hive的新手.

I am new to Hadoop and learning Hive.

在Hadoop最终指南第3版中.428最后一段

In Hadoop definative guide 3rd edition page no. 428 last paragraph

我不明白下面关于HIVE外部表的段落.

I don't understand below paragraph regarding external table in HIVE.

常见的模式是使用外部表访问存储在HDFS中的初始数据集(由另一个进程创建),然后使用Hive转换将数据移至托管的Hive表中."

"A common pattern is to use an external table to access an initial dataset stored in HDFS (created by another process), then use a Hive transform to move the data into a managed Hive table."

任何人都可以简要解释以上短语的内容吗?

Can anybody explain briefly what above phrase says?

推荐答案

通常,初始数据集中的数据并不是针对查询的最佳方式构建的.
您可能想要修改数据(例如修改某些列,添加列,进行聚合等)并以特定方式(分区/存储桶/已排序等)存储它,以便查询将从这些优化中受益.

Usually the data in the initial dataset is not constructed in the optimal way for queries.
You may want to modify the data (like modifying some columns adding columns, making aggregation etc) and to store it in a specific way (partitions / buckets / sorted etc) so that the queries would benefit from these optimizations.

这篇关于为什么我们需要将外部表移动到托管配置单元表?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆