Azure BLOB商店是否支持拼花板柱投影和下推过滤器/谓词 [英] Does Azure blob store support for parquet column projection and pushdown filters/predicates
本文介绍了Azure BLOB商店是否支持拼花板柱投影和下推过滤器/谓词的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
IV‘我已经阅读了一些关于镶木地板格式以及Spark如何与其集成的内容。
作为列式存储,parquet really shines只要Spark可以与底层存储协作,就可以执行投影,而不必加载所有数据,并指示存储根据各种统计数据加载特定的列块(当涉及筛选器时)。
我看到lecture on youtube(21:54)警告对象存储不支持下推过滤器(特别是以Amazon S3为例)。
Azure Blob存储在这方面的表现如何(当我们阅读会话包时)?
推荐答案
她错了。更具体地说,即使在2017年2月的演讲中,她对Hadoop 2.8中的S3的看法也是错误的;多年来一直回溯到CDH和HDP。
Azure从2017年8月开始拥有它,HADOOP-14535,它被反向移植到发货Azure HD/Insights和HDP(向Cloudera咨询CDH)。
她暗示的问题是Seek()在HTTP连接上开销很大,因为如果有很多GB的数据需要D/L,您需要中止连接并建立一个新的连接。上面的Hadoop补丁改变了商店的IO模式,通过使用有限的内容长度进行GET来优化随机访问,允许您重复使用相同的HTTP1.1连接。这对于完整文件读取是病态的;S3A让您请求它(fs.s3a.experimental.fadvise=random
);Azure在第一次向后查找时切换到随机IO。
这篇关于Azure BLOB商店是否支持拼花板柱投影和下推过滤器/谓词的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文