合并两个大型数据集的最佳策略 [英] Best strategy for joining two large datasets

查看：76 发布时间：2020/5/5 15:43:13 mapreduce google-cloud-dataflow

本文介绍了合并两个大型数据集的最佳策略的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我目前正在尝试找到处理两个非常大的数据集的最佳方法.

I'm currently trying to find the best way of processing two very large datasets.

我有两个BigQuery表:

I have two BigQuery Tables :

一个包含流事件(十亿行)的表
一个包含标签和相关事件属性(100000行)的表

我想根据事件属性使用适当的标记来标记每个事件(一个事件可以有多个标记).但是，对于数据集的大小，SQL交叉联接似乎太慢了.

I want to tag each event with the appropriate tags based on the event properties (an event can have multiple tags). However a SQL cross-join seems to be too slow for the dataset size.

使用mapreduces管道并避免发生的最佳方法是什么洗牌阶段非常昂贵，因为必须将每个事件与每个标签进行比较.

What is the best way to proceed using a pipeline of mapreduces and avoiding very costly shuffle phase since each event has to be compared to each tag.

我还计划使用Google Cloud Dataflow，此工具是否适合该任务?

Also I'm planning to use Google Cloud Dataflow, is this tool adapted for this task?

合并两个大型数据集的最佳策略 [英] Best strategy for joining two large datasets

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

合并两个大型数据集的最佳策略 [英] Best strategy for joining two large datasets

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭