Azure BLOB商店是否支持拼花板柱投影和下推过滤器/谓词 [英] Does Azure blob store support for parquet column projection and pushdown filters/predicates

查看:0
本文介绍了Azure BLOB商店是否支持拼花板柱投影和下推过滤器/谓词的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

IV‘我已经阅读了一些关于镶木地板格式以及Spark如何与其集成的内容。

作为列式存储,parquet really shines只要Spark可以与底层存储协作,就可以执行投影,而不必加载所有数据,并指示存储根据各种统计数据加载特定的列块(当涉及筛选器时)。

我看到lecture on youtube(21:54)警告对象存储不支持下推过滤器(特别是以Amazon S3为例)。

Azure Blob存储在这方面的表现如何(当我们阅读会话包时)?

推荐答案

她错了。更具体地说,即使在2017年2月的演讲中,她对Hadoop 2.8中的S3的看法也是错误的;多年来一直回溯到CDH和HDP。

Azure从2017年8月开始拥有它,HADOOP-14535,它被反向移植到发货Azure HD/Insights和HDP(向Cloudera咨询CDH)。

她暗示的问题是Seek()在HTTP连接上开销很大,因为如果有很多GB的数据需要D/L,您需要中止连接并建立一个新的连接。上面的Hadoop补丁改变了商店的IO模式,通过使用有限的内容长度进行GET来优化随机访问,允许您重复使用相同的HTTP1.1连接。这对于完整文件读取是病态的;S3A让您请求它(fs.s3a.experimental.fadvise=random);Azure在第一次向后查找时切换到随机IO。

这与谓词下推没有任何关系:这都是在ParquetFileFormat中完成的,只是如果您需要建立新的HTTP连接,那么查找,特别是向后查找是非常昂贵的。正如ORC和PARQUET格式将列摘要放在列块之后一样,有很多这样的内容 有关更多详细信息,请查看同一会议的this other talk

这篇关于Azure BLOB商店是否支持拼花板柱投影和下推过滤器/谓词的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆