Apache Tajo - 简介

分布式数据仓库系统

数据仓库是一个关系数据库，专为查询和分析而非事务处理而设计.它是面向主题，集成，时变和非易失性的数据集合.这些数据有助于分析师在组织中做出明智的决策，但关系数据量日益增加.

为了克服这些挑战，分布式数据仓库系统在多个数据存储库之间共享数据用于此目的在线分析处理(OLAP).每个数据仓库可以属于一个或多个组织.它执行负载平衡和可伸缩性.元数据被复制并集中分发.

Apache Tajo是一个分布式数据仓库系统，它使用Hadoop分布式文件系统(HDFS)作为存储层，并拥有自己的查询执行引擎而不是MapReduce框架.

Hadoop是一个开源框架，允许在分布式环境中存储和处理大数据.它非常快速和强大.但是，Hadoop具有有限的查询功能，因此借助Hadoop上的SQL可以使其性能更好.这允许用户通过简单的SQL命令与Hadoop进行交互.

Hadoop应用程序上的一些SQL示例是Hive，Impala，Drill，Presto，Spark，HAWQ和Apache Tajo.

Apache Tajo是一个关系和分布式数据处理框架.它专为低延迟和可扩展的即席查询分析而设计.

最新版本的Tajo与Java程序和第三方数据库有更好的连接性作为Oracle和PostGreSQL.

Apache Tajo具有以下功能 :

Apache Tajo提供以下好处和减号;

以下是Apache Tajo&minus的一些使用案例;

韩国SK电信公司针对1.7兆兆位的数据运行Tajo并发现它可以比Hive或Impala更快地完成查询.

韩国音乐流媒体服务Melon使用Tajo进行分析处理. Tajo执行ETL(提取 - 转换 - 加载过程)作业比Hive快1.5到10倍.

Bluehole Studio，一个基于韩语的公司开发了TERA - 一款奇幻多人在线游戏.该公司使用Tajo进行游戏日志分析并找出服务质量中断的主要原因.

Apache Tajo支持以下数据格式 :

Tajo支持以下存储格式 :