Parquet 谓词下推是否适用于使用 Spark 非 EMR 的 S3? [英] is Parquet predicate pushdown works on S3 using Spark non EMR?

查看:25
本文介绍了Parquet 谓词下推是否适用于使用 Spark 非 EMR 的 S3?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

只是想知道 Parquet 谓词下推是否也适用于 S3,而不仅仅是 HDFS.特别是如果我们使用 Spark(非 EMR).

Just wondering if Parquet predicate pushdown also works on S3, not only HDFS. Specifically if we use Spark (non EMR).

进一步的解释可能会有所帮助,因为它可能涉及对分布式文件系统的理解.

Further explanation might be helpful since it might involve understanding on distributed file system.

推荐答案

是的.过滤器下推不依赖于底层文件系统.它只取决于 spark.sql.parquet.filterPushdown 和过滤器的类型(并非所有过滤器都可以下推).

Yes. Filter pushdown does not depend on the underlying file system. It only depends on the spark.sql.parquet.filterPushdown and the type of filter (not all filters can be pushed down).

https://github.com/apache/spark/blob/v2.2.0/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/parquet/ParquetFileFormat.scala#L313 用于下推逻辑.

这篇关于Parquet 谓词下推是否适用于使用 Spark 非 EMR 的 S3?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆