Apache Tajo - 简介

分布式数据仓库系统

数据仓库是一个关系数据库,专为查询和分析而非事务处理而设计.它是面向主题,集成,时变和非易失性的数据集合.这些数据有助于分析师在组织中做出明智的决策,但关系数据量日益增加.

为了克服这些挑战,分布式数据仓库系统在多个数据存储库之间共享数据用于此目的在线分析处理(OLAP).每个数据仓库可以属于一个或多个组织.它执行负载平衡和可伸缩性.元数据被复制并集中分发.

Apache Tajo是一个分布式数据仓库系统,它使用Hadoop分布式文件系统(HDFS)作为存储层,并拥有自己的查询执行引擎而不是MapReduce框架.

Hadoop上的SQL概述

Hadoop是一个开源框架,允许在分布式环境中存储和处理大数据.它非常快速和强大.但是,Hadoop具有有限的查询功能,因此借助Hadoop上的SQL可以使其性能更好.这允许用户通过简单的SQL命令与Hadoop进行交互.

Hadoop应用程序上的一些SQL示例是Hive,Impala,Drill,Presto,Spark,HAWQ和Apache Tajo.

什么是Apache Tajo

Apache Tajo是一个关系和分布式数据处理框架.它专为低延迟和可扩展的即席查询分析而设计.

  • Tajo支持标准SQL和各种数据格式.大多数Tajo查询都可以在不做任何修改的情况下执行.

  • Tajo通过重启机制来解决容错失败的任务和可扩展的查询重写引擎.

  • Tajo执行必要的 ETL(提取转换和加载过程)操作来汇总存储在HDFS上的大型数据集.它是Hive/Pig的另一种选择.

最新版本的Tajo与Java程序和第三方数据库有更好的连接性作为Oracle和PostGreSQL.

Apache Tajo的功能

Apache Tajo具有以下功能 :

  • 卓越的可扩展性和优化的性能

  • 低延迟

  • 用户定义的功能

  • 行/列存储处理框架.

  • 与HiveQL和Hive MetaStore的兼容性

  • 简单的数据流和易维护.

Apache Tajo的好处

Apache Tajo提供以下好处和减号;

  • 易于使用

  • 简化架构

  • 基于成本的查询优化

  • 矢量化查询执行计划

  • 快速交付

  • 简单的I/O机制,支持各种类型的存储.

  • 容错

Apache Tajo的使用案例

以下是Apache Tajo&minus的一些使用案例;

数据仓库和分析

韩国SK电信公司针对1.7兆兆位的数据运行Tajo并发现它可以比Hive或Impala更快地完成查询.

数据发现

韩国音乐流媒体服务Melon使用Tajo进行分析处理. Tajo执行ETL(提取 - 转换 - 加载过程)作业比Hive快1.5到10倍.

日志分析

Bluehole Studio,一个基于韩语的公司开发了TERA  - 一款奇幻多人在线游戏.该公司使用Tajo进行游戏日志分析并找出服务质量中断的主要原因.

存储和数据格式

Apache Tajo支持以下数据格式 :

  • JSON

  • 文本文件(CSV)

  • Parquet

  • 序列文件

  • AVRO

  • 协议缓冲区

  • Apache Orc

Tajo支持以下存储格式 :

  • HDFS

  • JDBC

  • Amazon S3

  • Apache HBase

  • Elasticsearch