spark-structured-streaming相关内容

spark如何计算给定窗口间隔的窗口开始时间?

考虑我有一个带有时间戳字段列的输入 df 并且在将窗口持续时间(没有滑动间隔)设置为: 10 分钟 输入时间(2019-02-28 22:33:02) 形成的窗口为 (2019-02-28 22:30:02) to (2019-02-28 22:40:02) 8 分钟 输入相同的时间(2019-02-28 22:33:02) 形成的窗口为 (2019-02-28 22: ..

嵌套json中的结构化流不同模式

嗨,我有一个场景,传入的消息是一个 Json,它有一个标题说 tablename,数据部分有表列数据.现在我想把它写到 parquet 到单独的文件夹说 /emp 和 /dept.我可以通过基于表名聚合行在常规流中实现这一点.但是在结构化流媒体中,我无法拆分它.我如何才能在结构化流媒体中实现这一点. {"tableName":"employee","data":{"empid":1","em ..

嵌套json中的结构化流不同模式

嗨,我有一个场景,传入的消息是一个 Json,它有一个标题说 tablename,数据部分有表列数据.现在我想把它写到 parquet 到单独的文件夹说 /emp 和 /dept.我可以通过基于表名聚合行在常规流中实现这一点.但是在结构化流媒体中,我无法拆分它.我如何才能在结构化流媒体中实现这一点. {"tableName":"employee","data":{"empid":1","em ..

优雅地关闭火花结构化流

有一种方法可以通过将属性 spark.streaming.stopGracefullyOnShutdown 设置为 true,然后使用 kill -SIGTERM 命令终止进程来正常关闭 Spark 流.但是,我没有看到此类选项可用于结构化流 (SQLContext.scala). 结构化流媒体的关闭过程是否不同?或者只是还没有实施? 解决方案 此功能尚未实现.但是,spark 结构 ..

如何将 kafka 上的火花流嵌套 json 转换为平面数据帧?

我第一次尝试将来自 Kafka 的 JSON 解析为 Spark 结构化流时需要一些帮助. 我正在努力转换传入的 JSON 并将其转换为平面数据帧以供进一步处理. 我的输入json是 [{ "siteId": "30:47:47:BE:16:8F", "siteData":[{ "dataseries": "trend-255", "values":[{"ts": 150271560 ..

如何仅从文件处理新记录?

我有一个方案来处理文件中的记录.文件中的数据会定期(每毫秒)添加一次.所以我需要读取文件并处理它,同时只处理新添加的记录. 我遇到了基于 Spark SQL 构建的 Spark Structured 流的概念.我正在做的是 - 每 1 秒触发一次文件流处理 对文件运行 Spark SQL 查询 以追加模式在控制台上写入查询的输出. 下面是相同的代码 - 公共静态类 Spar ..