Hive如何存储数据以及SerDe是什么? [英] How does Hive stores data and what is SerDe?

查看:417
本文介绍了Hive如何存储数据以及SerDe是什么?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

在查询表时,SerDe会将一行数据从文件中的字节反序列化到Hive内部用于对该行数据进行操作的对象。当执行INSERT或CTAS(请参阅第441页上的导入数据)时,该表的SerDe将将一行数据的Hive内部表示形式序列化为写入输出文件的字节。 p>

when querying a table, a SerDe will deserialize a row of data from the bytes in the file to objects used internally by Hive to operate on that row of data. when performing an INSERT or CTAS (see "Importing Data" on page 441), the table’s SerDe will serialize Hive’s internal representation of a row of data into the bytes that are written to the output file.


  1. 是serDe库吗?

  2. hive存储数据如何存储在文件或表中? li>
  3. 请任何人都能清楚地解释大胆的句子吗?
    我是新来的蜂房!


推荐答案



Answers


  1. 是的,SerDe是一个内置于Hadoop API的库

  2. Hive使用文件系统,如HDFS或任何其他存储(FTP)来存储数据,这里的数据是以表格的形式(其具有行和列)。

  3. SerDe - Serializer,Deserializer指导配置单元如何处理记录(Row)。 Hive可以处理半结构化(XML,电子邮件等)或非结构化记录(音频,视频等)。例如,如果您有1000 GB的RSS源(RSS XML)。您可以将这些文件摄入HDFS中的某个位置。您需要根据XML结构编写自定义SerDe,以便Hive知道如何将XML文件加载到Hive表或其他方式。

有关如何编写SerDe的更多信息,请阅读帖子

For more information on how to write a SerDe read this post

这篇关于Hive如何存储数据以及SerDe是什么?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆