何时在BigQuery中使用分区 [英] When to use partitioning in BigQuery
本文介绍了何时在BigQuery中使用分区的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!
问题描述
如果您有任何有关使用BQ for DWH的最佳实践的参考或书籍,请将其提供给我。
推荐答案
所以我的很多数据每天的行数都很少(在1K到12K之间),但它们包含了很长一段时间的数据,所以根据日期对表进行分区是不是一个好主意?
这将取决于您要使用的查询覆盖的时间范围有多广。
案例A
例如,如果查询的最大持续时间是1周,则分区到每日分区在速度和成本方面可能非常有利,因为引擎不需要扫描整个表。仅选择7个每日分区。
示例:对于公共数据集bigquery-public-data.samples.github_timeline
,覆盖1天的查询由于表扫描导致数据使用量约为数百MB。使用类似的每日分区表可将1天查询产生的数据使用量减少到约10 MB。
案例B
另一方面,如果最频繁运行的查询覆盖了一年或两年的时间范围(例如,从时间上讲,表中的整个数据跨度),那么每天使用分区并没有多大帮助,引擎无论如何都需要处理几乎所有的表。因此,使用每日分区也无济于事。如果每日数据量小于最小群集大小,则群集可能会对数据使用率产生不利影响,因为引擎最终将处理更多磁盘空间。
这篇关于何时在BigQuery中使用分区的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!
查看全文