电光结构化流媒体:处理负载是否影响输入率/数字输入记录? [英] Spark Structured Streaming: Does Processing load affect Input Rate/numInputRecords?

查看:13
本文介绍了电光结构化流媒体:处理负载是否影响输入率/数字输入记录?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我当前的结构化流应用程序写入一个巨大的Delta表。当我(停止流)并将其指向写入全新的增量表时:

  1. 它变得更快-批量持续时间减少了近四分之一
  2. 投入率几乎提高了3倍

我知道它可能会变得更快,因为它在旧的/更大的表上执行的任何聚合/写入在新表上都不需要。但投入率的变化我希望有人能解释一下?

源为Azure EventHubs。

谢谢!

推荐答案

回答我自己的问题:

InputRate和Processing Rate背后的逻辑似乎如下:

Input rate =  numInputRows (or batch size )/ Trigger Interval in secs
Processing Rate = numInputRows (or batch size )/ Batch Duration in secs

如果没有触发间隔,它们应该相同,因为BatchDuration=触发间隔。

因此,对于具有许多分区的较大表,写入和聚合花费的时间更长,这增加了批处理持续时间,从而降低了InputRate(和处理速率)。因此,对于具有较快输入/处理速率的较小目标表,这应该可以解释相反的情况。

这篇关于电光结构化流媒体:处理负载是否影响输入率/数字输入记录?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆