spotify-scio - IT屋-程序员软件开发技术分享社区

与 BigQuery Table 输入大小相比，为什么我的 PCollection (SCollection) 大小如此之大?

上图是一个大查询表的表模式，它是在 spotify 的 scio 上运行的 apache 光束数据流作业的输入.如果您不熟悉 scio，它是围绕 Apache Beam Java SDK 的 Scala 包装器.特别是，“SCollection 包装 PCollection".我在 BigQuery 磁盘上的输入表是 136 gigs，但在数据流 UI 中查看我的 SCollection 的大小时 ..

发布时间：2021-11-11 22:46:25 google-bigquery google-cloud-dataflow apache-beam spotify-scio 其他开发

与 BigQuery Table 输入大小相比，为什么我的 PCollection (SCollection) 大小如此之大?

上图是一个大查询表的表模式，它是在 spotify 的 scio 上运行的 apache 光束数据流作业的输入.如果您不熟悉 scio，它是围绕 Apache Beam Java SDK 的 Scala 包装器.特别是，“SCollection 包装 PCollection".我在 BigQuery 磁盘上的输入表是 136 gigs，但在数据流 UI 中查看我的 SCollection 的大小时 ..

发布时间：2021-11-11 22:45:34 google-bigquery google-cloud-dataflow apache-beam spotify-scio 其他开发

Apache Beam Stateful DoFn 定期输出所有 K/V 对

我正在尝试使用有状态的 DoFn(使用 @ProcessElement 和 @StateId)在 Apache Beam(通过 Scio)中聚合(每个键)一个流数据源code>ValueState 元素).我认为这最适合我要解决的问题.要求是: 对于给定的键，记录是在所有时间聚合(基本上是求和) - 我不关心以前计算的聚合，只关心最近的聚合可能会根据我控制的某些条件从状态 (state. ..

发布时间：2021-11-11 22:40:53 google-cloud-dataflow apache-beam spotify-scio 其他开发

Scio:使用 Pub/Sub 作为集合源时 groupByKey 不起作用

我更改了 WindowsWordCount 示例从文本文件到云 Pub/Sub 的程序如下所示.我将莎士比亚文件的数据发布到 Pub/Sub，它确实被正确获取，但 .groupByKey 之后的任何转换似乎都不起作用. sc.pubsubSubscription[String](psSubscription).withFixedWindows(windowSize)//应用窗口逻辑.flatM ..

发布时间：2021-11-11 22:37:52 apache-beam spotify-scio 其他开发

如何在 Cloud Dataflow 中使用 TextIO.Read 匹配具有名称的多个文件

我有一个 gcs 文件夹，如下所示: gs:////dt=2017-12-01/part-0000.tsv/dt=2017-12-02/part-0000.tsv/dt=2017-12-03/part-0000.tsv/dt=2017-12-04/part-0000.tsv... 我只想匹配 dt=2017-12-02 和 dt=2017-12-03 下的文件，使用 sc.textFile() ..

发布时间：2021-11-11 22:36:49 scala google-cloud-platform google-cloud-dataflow apache-beam spotify-scio 其他开发

带窗口的 GroupByKey 后，Beam 管道不产生任何输出，并且出现内存错误

目的: 我想加载流数据，然后加一个key，然后按key统计. 问题: Apache Beam Dataflow pipline 在我尝试使用流方法(无界数据)加载和按键分组大数据时出现内存错误.因为数据似乎是按组累积的，并且不会随着每个窗口的触发而提前触发数据. 如果我减小元素大小(元素数量不会改变)，它会起作用！因为实际上 group-by step 会等待所有数据分组， ..

发布时间：2021-11-11 22:33:00 google-cloud-dataflow apache-beam spotify-scio 其他开发

Apache Beam有状态DoFn定期输出所有K/V对

我正在尝试使用有状态DoFn(通过 @ProcessElement 和 @StateId ValueState 元素).我认为这对于我要解决的问题最合适.要求是: 对于给定的键，记录会一直进行汇总(基本上是汇总)-我不在乎以前计算的汇总，只是最近的根据我控制的某些条件，键可能会从状态( state.clear())中被逐出每5分钟无论是否看到任何新密钥，都应输出所有尚未从状态撤出的密 ..

发布时间：2021-04-07 20:57:11 google-cloud-dataflow apache-beam spotify-scio 其他开发

在带有窗口的GroupByKey之后，光束管道不产生任何输出，并且出现内存错误

目的: 我想加载流数据，然后添加一个键，然后按键对它们进行计数. 问题: 当我尝试使用流传输方法(无界数据)加载并按密钥对大型数据进行分组时，Apache Beam Dataflow pipline出现内存错误.因为似乎数据是按组存储的，并且不会在触发每个窗口时更早地触发数据. 如果我减小元素大小(元素数不会改变)，它将起作用！因为实际上分组操作会等待所有数据被分组，然后触 ..

发布时间：2021-04-07 20:55:56 google-cloud-dataflow apache-beam spotify-scio 其他开发

在Google Cloud Dataflow中按顺序读取文件

我正在使用 Spotify Scio 来读取从Stackdriver导出到Google Cloud Storage的日志.它们是JSON文件，其中每一行都是一个条目.查看工作日志，似乎文件已拆分为多个块，然后按任何顺序读取.在这种情况下，我已经将我的工作仅限于1名工人.有没有办法强制这些块按顺序读取和处理? 作为示例(textFile本质上是TextIO.Read): val sc = ..

发布时间：2020-07-25 19:15:24 google-cloud-platform google-cloud-dataflow spotify-scio 其他开发

为什么我的PCollection(SCollection)大小比BigQuery Table输入大小大?

上图是一个大查询表的表架构，该表是在Spotify的scio上运行的apache Beam数据流作业的输入.如果您不熟悉scio，那么它就是Apache Beam Java SDK周围的Scala包装器.特别是，"SCollection包装PCollection".我在BigQuery磁盘上的输入表是136个演出，但是在数据流UI中查看我的SCollection的大小时，它的大小是504.91 G ..

发布时间：2020-07-25 19:15:21 google-bigquery google-cloud-dataflow apache-beam spotify-scio 其他开发

Scio:使用Pub/Sub作为集合源时，groupByKey不起作用

我更改了 WindowsWordCount示例程序从文本文件到云Pub/Sub，如下所示.我将莎士比亚文件的数据发布到Pub/Sub，确实可以正确获取，但.groupByKey之后的任何转换似乎都不起作用. sc.pubsubSubscription[String](psSubscription) .withFixedWindows(windowSize) // apply window ..

发布时间：2020-07-25 19:15:17 apache-beam spotify-scio 其他开发

如何使用TextIO将多个文件与名称匹配.在Cloud Dataflow中读取

我有一个gcs文件夹，如下所示: gs:////dt=2017-12-01/part-0000.tsv /dt=2017-12-02/part-0000.tsv /dt=2017-12-03/part-0000.t ..

发布时间：2020-07-25 19:15:13 scala google-cloud-platform google-cloud-dataflow apache-beam spotify-scio 其他开发

spotify-scio相关内容