Google BigQuery 底层架构 [英] Google BigQuery Underlying Architecture

查看:47
本文介绍了Google BigQuery 底层架构的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

所以我大约 10 分钟前才开始使用 Google BigQuery,我想知道是否有人知道他们用来存储数据的底层架构?例如,这只是他们自己的 BigTable 基础设施的下一代吗?

So I just started messing around with Google BigQuery about 10 minutes ago, and I was wondering if anyone is aware of the underlying architecture that they're using to store the data? For example, is this just the next generation of their own BigTable infrastructure?

此外,是否清楚他们对索引、索引重建等使用了哪些类型的策略?我只是想分析在这一点上这是否足够成熟,您可以 100% 确定端到端的数据发生了什么,或者是否有一些黑匣子区域事情只是工作?

Also, is it clear what sorts of strategies they're using for indexes, index rebuilds, etc? I'm just trying to analyze whether this is mature enough at this point where you can be 100% sure of what's going on with your data end-to-end, or is there a bit of a black box area where "things just work"?

推荐答案

没有索引...每个查询都是表扫描.此处.您的数据在 Colossus(GFS 的继任者)上以称为 ColumnIO 的专有列格式存储.Colossus 会复制数据中心内的数据,您的数据也会复制到其他地理区域,以确保即使 Google 数据中心离线也能保持可用.

There are no indexes... every query is a table scan. The query architecture is described here. Your data is stored in a proprietary columnar format called ColumnIO on Colossus (a successor to GFS). Colossus replicates the data within a datacenter and your data is also replicated to other geographic regions to make sure it stays available even if a Google datacenter goes offline.

回答您的具体问题

  • 虽然数据可能会临时存储在 Bigtable 中,但所有数据都会长期存储在 Colossus 中(目前!).
  • 添加到 bigquery 的新数据在静态(即,每当它写出到永久存储时)都会加密.通过网络发送时,它也会被加密.
  • 如前所述,没有索引,因此没有重建索引的策略.根据您向表中添加数据的方式,您的表可能会合并,这意味着以更有效的方式重写基础文件.
  • Colossus 是各种服务中大量 Google 数据的基础,ColumnIO 是整个 Google 的标准.我认为这两种技术都很成熟.
  • 但是,您也应该将其视为一个黑匣子.随着 Google 存储系统的成熟或架构的变化,这里的所有细节都可能会发生变化.但是,它应该始终正常工作"(当然,在 SLA 警告范围内)

如果您对 BigQuery 如何在幕后工作或如何有效使用它的更多详细信息感兴趣,这里是我们该主题的书籍,将于 6 月出版.

If you're interested in more details about how BigQuery works under the covers or how to use it effectively, here is a shameless plug for our book on the subject which is due out in June.

这篇关于Google BigQuery 底层架构的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆