spotify-scio相关内容

与 BigQuery Table 输入大小相比,为什么我的 PCollection (SCollection) 大小如此之大?

上图是一个大查询表的表模式,它是在 spotify 的 scio 上运行的 apache 光束数据流作业的输入.如果您不熟悉 scio,它是围绕 Apache Beam Java SDK 的 Scala 包装器.特别是,“SCollection 包装 PCollection".我在 BigQuery 磁盘上的输入表是 136 gigs,但在数据流 UI 中查看我的 SCollection 的大小时 ..

与 BigQuery Table 输入大小相比,为什么我的 PCollection (SCollection) 大小如此之大?

上图是一个大查询表的表模式,它是在 spotify 的 scio 上运行的 apache 光束数据流作业的输入.如果您不熟悉 scio,它是围绕 Apache Beam Java SDK 的 Scala 包装器.特别是,“SCollection 包装 PCollection".我在 BigQuery 磁盘上的输入表是 136 gigs,但在数据流 UI 中查看我的 SCollection 的大小时 ..

Apache Beam Stateful DoFn 定期输出所有 K/V 对

我正在尝试使用有状态的 DoFn(使用 @ProcessElement 和 @StateId)在 Apache Beam(通过 Scio)中聚合(每个键)一个流数据源code>ValueState 元素).我认为这最适合我要解决的问题.要求是: 对于给定的键,记录是在所有时间聚合(基本上是求和) - 我不关心以前计算的聚合,只关心最近的聚合 可能会根据我控制的某些条件从状态 (state. ..
发布时间:2021-11-11 22:40:53 其他开发

带窗口的 GroupByKey 后,Beam 管道不产生任何输出,并且出现内存错误

目的: 我想加载流数据,然后加一个key,然后按key统计. 问题: Apache Beam Dataflow pipline 在我尝试使用流方法(无界数据)加载和按键分组大数据时出现内存错误.因为数据似乎是按组累积的,并且不会随着每个窗口的触发而提前触发数据. 如果我减小元素大小(元素数量不会改变),它会起作用!因为实际上 group-by step 会等待所有数据分组, ..
发布时间:2021-11-11 22:33:00 其他开发

Apache Beam有状态DoFn定期输出所有K/V对

我正在尝试使用有状态DoFn(通过 @ProcessElement 和 @StateId ValueState 元素).我认为这对于我要解决的问题最合适.要求是: 对于给定的键,记录会一直进行汇总(基本上是汇总)-我不在乎以前计算的汇总,只是最近的 根据我控制的某些条件,键可能会从状态( state.clear())中被逐出 每5分钟无论是否看到任何新密钥,都应输出所有尚未从状态撤出的密 ..
发布时间:2021-04-07 20:57:11 其他开发

在带有窗口的GroupByKey之后,光束管道不产生任何输出,并且出现内存错误

目的: 我想加载流数据,然后添加一个键,然后按键对它们进行计数. 问题: 当我尝试使用流传输方法(无界数据)加载并按密钥对大型数据进行分组时,Apache Beam Dataflow pipline出现内存错误.因为似乎数据是按组存储的,并且不会在触发每个窗口时更早地触发数据. 如果我减小元素大小(元素数不会改变),它将起作用!因为实际上分组操作会等待所有数据被分组,然后触 ..
发布时间:2021-04-07 20:55:56 其他开发

在Google Cloud Dataflow中按顺序读取文件

我正在使用 Spotify Scio 来读取从Stackdriver导出到Google Cloud Storage的日志.它们是JSON文件,其中每一行都是一个条目.查看工作日志,似乎文件已拆分为多个块,然后按任何顺序读取.在这种情况下,我已经将我的工作仅限于1名工人.有没有办法强制这些块按顺序读取和处理? 作为示例(textFile本质上是TextIO.Read): val sc = ..

为什么我的PCollection(SCollection)大小比BigQuery Table输入大小大?

上图是一个大查询表的表架构,该表是在Spotify的scio上运行的apache Beam数据流作业的输入.如果您不熟悉scio,那么它就是Apache Beam Java SDK周围的Scala包装器.特别是,"SCollection包装PCollection".我在BigQuery磁盘上的输入表是136个演出,但是在数据流UI中查看我的SCollection的大小时,它的大小是504.91 G ..