spotify-scio相关内容
上图是一个大查询表的表模式,它是在 spotify 的 scio 上运行的 apache 光束数据流作业的输入.如果您不熟悉 scio,它是围绕 Apache Beam Java SDK 的 Scala 包装器.特别是,“SCollection 包装 PCollection".我在 BigQuery 磁盘上的输入表是 136 gigs,但在数据流 UI 中查看我的 SCollection 的大小时
..
上图是一个大查询表的表模式,它是在 spotify 的 scio 上运行的 apache 光束数据流作业的输入.如果您不熟悉 scio,它是围绕 Apache Beam Java SDK 的 Scala 包装器.特别是,“SCollection 包装 PCollection".我在 BigQuery 磁盘上的输入表是 136 gigs,但在数据流 UI 中查看我的 SCollection 的大小时
..
我正在尝试使用有状态的 DoFn(使用 @ProcessElement 和 @StateId)在 Apache Beam(通过 Scio)中聚合(每个键)一个流数据源code>ValueState 元素).我认为这最适合我要解决的问题.要求是: 对于给定的键,记录是在所有时间聚合(基本上是求和) - 我不关心以前计算的聚合,只关心最近的聚合 可能会根据我控制的某些条件从状态 (state.
..
我更改了 WindowsWordCount 示例 从文本文件到云 Pub/Sub 的程序如下所示.我将莎士比亚文件的数据发布到 Pub/Sub,它确实被正确获取,但 .groupByKey 之后的任何转换似乎都不起作用. sc.pubsubSubscription[String](psSubscription).withFixedWindows(windowSize)//应用窗口逻辑.flatM
..
我有一个 gcs 文件夹,如下所示: gs:////dt=2017-12-01/part-0000.tsv/dt=2017-12-02/part-0000.tsv/dt=2017-12-03/part-0000.tsv/dt=2017-12-04/part-0000.tsv... 我只想匹配 dt=2017-12-02 和 dt=2017-12-03 下的文件,使用 sc.textFile()
..
目的: 我想加载流数据,然后加一个key,然后按key统计. 问题: Apache Beam Dataflow pipline 在我尝试使用流方法(无界数据)加载和按键分组大数据时出现内存错误.因为数据似乎是按组累积的,并且不会随着每个窗口的触发而提前触发数据. 如果我减小元素大小(元素数量不会改变),它会起作用!因为实际上 group-by step 会等待所有数据分组,
..
我正在尝试使用有状态DoFn(通过 @ProcessElement 和 @StateId ValueState 元素).我认为这对于我要解决的问题最合适.要求是: 对于给定的键,记录会一直进行汇总(基本上是汇总)-我不在乎以前计算的汇总,只是最近的 根据我控制的某些条件,键可能会从状态( state.clear())中被逐出 每5分钟无论是否看到任何新密钥,都应输出所有尚未从状态撤出的密
..
目的: 我想加载流数据,然后添加一个键,然后按键对它们进行计数. 问题: 当我尝试使用流传输方法(无界数据)加载并按密钥对大型数据进行分组时,Apache Beam Dataflow pipline出现内存错误.因为似乎数据是按组存储的,并且不会在触发每个窗口时更早地触发数据. 如果我减小元素大小(元素数不会改变),它将起作用!因为实际上分组操作会等待所有数据被分组,然后触
..
我正在使用 Spotify Scio 来读取从Stackdriver导出到Google Cloud Storage的日志.它们是JSON文件,其中每一行都是一个条目.查看工作日志,似乎文件已拆分为多个块,然后按任何顺序读取.在这种情况下,我已经将我的工作仅限于1名工人.有没有办法强制这些块按顺序读取和处理? 作为示例(textFile本质上是TextIO.Read): val sc =
..
上图是一个大查询表的表架构,该表是在Spotify的scio上运行的apache Beam数据流作业的输入.如果您不熟悉scio,那么它就是Apache Beam Java SDK周围的Scala包装器.特别是,"SCollection包装PCollection".我在BigQuery磁盘上的输入表是136个演出,但是在数据流UI中查看我的SCollection的大小时,它的大小是504.91 G
..
我更改了 WindowsWordCount示例程序从文本文件到云Pub/Sub,如下所示.我将莎士比亚文件的数据发布到Pub/Sub,确实可以正确获取,但.groupByKey之后的任何转换似乎都不起作用. sc.pubsubSubscription[String](psSubscription) .withFixedWindows(windowSize) // apply window
..
我有一个gcs文件夹,如下所示: gs:////dt=2017-12-01/part-0000.tsv /dt=2017-12-02/part-0000.tsv /dt=2017-12-03/part-0000.t
..