HCatalog - 简介

什么是HCatalog?

HCatalog是Hadoop的表存储管理工具.它将Hive Metastore的表格数据暴露给其他Hadoop应用程序.它使具有不同数据处理工具(Pig,MapReduce)的用户能够轻松地将数据写入网格.它确保用户不必担心其数据的存储位置或格式.

HCatalog的工作方式类似于Hive的关键组件,它使用户能够将数据存储在任何格式和任何结构.

为什么选择HCatalog?

为正确的工作启用正确的工具

Hadoop生态系统包含用于数据处理的不同工具,例如Hive,Pig和MapReduce.虽然这些工具不需要元数据,但是当它存在时,它们仍然可以从中受益.共享元数据存储还使跨工具的用户可以更轻松地共享数据.使用MapReduce或Pig加载和规范化数据然后通过Hive进行分析的工作流程非常常见.如果所有这些工具共享一个Metastore,则每个工具的用户可以立即访问使用其他工具创建的数据.无需加载或转移步骤.

捕获处理状态以启用共享

HCatalog可以发布您的分析结果.因此,其他程序员可以通过"REST"访问您的分析平台.您发布的模式对其他数据科学家也很有用.其他数据科学家使用您的发现作为后续发现的输入.

将Hadoop与所有内容集成

Hadoop作为处理和存储环境打开了企业有很多机会;但是,为了推动采用,它必须与现有工具配合使用并加以扩充. Hadoop应作为您的分析平台的输入,或与您的运营数据存储和Web应用程序集成.组织应该享受Hadoop的价值而无需学习全新的工具集. REST服务使用熟悉的API和类似SQL的语言为企业打开平台.企业数据管理系统使用HCatalog与Hadoop平台进行更深入的集成.

HCatalog架构

下图显示了HCatalog的整体架构./p> Architecture

HCatalog支持以任何格式读取和写入文件可以编写 SerDe (序列化器 - 解串器).默认情况下,HCatalog支持RCFile,CSV,JSON,SequenceFile和ORC文件格式.要使用自定义格式,您必须提供InputFormat,OutputFormat和SerDe.

HCatalog建立在Hive Metastore之上,并包含Hive的DDL. HCatalog为Pig和MapReduce提供读写接口,并使用Hive的命令行界面发布数据定义和元数据探索命令.