Apache Presto - 概述

数据分析是分析原始数据以收集相关信息以便更好地制定决策的过程.它主要用于许多组织以制定业务决策.嗯,大数据分析涉及大量数据,这个过程非常复杂,因此公司使用不同的策略.

例如,Facebook是领先的数据驱动和最大的数据仓库之一公司在世界上. Facebook仓库数据存储在Hadoop中以进行大规模计算.后来,当仓库数据增长到数PB时,他们决定开发一种低延迟的新系统.在2012年,Facebook团队成员设计了"Presto"进行交互式查询分析,即使有数PB的数据也能快速运行.

什么是Apache Presto?

Apache Presto是一个分布式并行查询执行引擎,针对低延迟和交互式查询分析进行了优化. Presto可轻松运行查询,无需停机即可从千兆字节扩展到数千字节.

单个Presto查询可以处理来自多个来源的数据,如HDFS,MySQL,Cassandra,Hive和更多数据源. Presto使用Java构建,易于与其他数据基础架构组件集成. Presto功能强大,Airbnb,DropBox,Groupon,Netflix等领先公司正在采用它.

Presto  - 功能

Presto包含以下功能和减号;

  • 简单且可扩展的架构.

  • 可插拔连接器 -  Presto支持可插拔连接器以提供元数据查询数据.

  • 流水线执行 - 避免不必要的I/O延迟开销.

  • 用户定义的函数 - 分析师可以创建自定义的用户定义

  • 矢量化柱状处理.

Presto  - 好处

以下列出了Apache Presto提供的优点和减号;

  • 专门的SQL操作

  • 易于安装和调试

  • 简单存储抽象

  • 以低延迟快速扩展数PB数据

Presto  - 应用程序

Pres支持当今大多数最好的工业应用.让我们来看看一些值得注意的应用程序.

  • Facebook :  Facebook建立了Presto以满足数据分析需求. Presto可轻松扩展大量数据.

  • Teradata :  Teradata提供大数据分析和数据仓库的端到端解决方案. Teradata对Presto的贡献使更多公司能够更轻松地满足所有分析需求.

  • Airbnb :  Presto是Airbnb数据基础设施不可或缺的一部分.好吧,每天有数百名员工使用该技术运行查询.

为什么选择Presto?

Presto支持标准ANSI SQL,这使数据分析师和开发人员非常容易.虽然它是用Java构建的,但它避免了与内存分配和垃圾收集相关的Java代码的典型问题. Presto有一个Hadoop友好的连接器架构.它允许轻松插入文件系统.

Presto在多个Hadoop发行版上运行.此外,Presto可以从Hadoop平台访问以查询Cassandra,关系数据库或其他数据存储.这种跨平台分析功能允许Presto用户从千兆字节到数千兆的数据中提取最大业务价值.