Apache Drill与Spark [英] Apache Drill vs Spark

查看:156
本文介绍了Apache Drill与Spark的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我对Apache Spark和Spark-SQL有一定的了解.最近,我找到了Apache Drill项目.您能形容我之间最大的优点/不同之处是什么?我已经看过了 快速Hadoop分析(Cloudera Impala与Spark/Shark vs Apache Drill) 但是这个话题对我来说还不清楚.

I have some expirience with Apache Spark and Spark-SQL. Recently I've found Apache Drill project. Could you describe me what are the most significant advantages/differences between them? I've already read Fast Hadoop Analytics (Cloudera Impala vs Spark/Shark vs Apache Drill) but this topic is still unclear for me.

推荐答案

这是我碰到的一篇文章,其中讨论了一些SQL技术:

Here's an article I came across that discusses some of the SQL technologies: http://www.zdnet.com/article/sql-and-hadoop-its-complicated/

钻探在用户体验和体系结构上根本不同.例如:

Drill is fundamentally different in both the user's experience and the architecture. For example:

  • Drill是无模式查询引擎.例如,您可以将其指向JSON或Parquet日志文件的目录(在本地框上,一个NFS共享,S3,HDFS,MapR-FS等),然后运行查询.您无需加载数据,创建和管理架构或对数据进行预处理.
  • Drill内部使用JSON文档模型,从而可以查询任何结构的数据.许多现代数据很复杂,这意味着一条记录可以包含嵌套的结构和数组,并且字段名称实际上可以编码诸如时间戳或网页URL的值. Drill使普通的BI工具可以对此类数据进行无缝操作,而无需事先将数据展平.
  • Drill可与各种非关系型数据存储一起使用,包括Hadoop,NoSQL数据库(MongoDB,HBase)和云存储.其他数据存储将被添加.

Drill 1.0刚刚发布(2015年5月19日).您可以轻松地将其下载到笔记本电脑上,并且无需任何基础设施(Hadoop,NoSQL等)就可以使用它.

Drill 1.0 was just released (May 19, 2015). You can easily download it onto your laptop and play with it without any infrastructure (Hadoop, NoSQL, etc.).

这篇关于Apache Drill与Spark的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆