使用 Spark SQL 数据集作为基于 RDD 的作业 [英] Consume Spark SQL dataset as RDD based job

查看:35
本文介绍了使用 Spark SQL 数据集作为基于 RDD 的作业的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

Spark 数据帧有 toRDD() 方法,但我不明白它的用处.我们可以通过将转换后的源数据集处理为 RDD 而不是创建和启动 DataStreamWriter 来启动 SQL 流作业吗?

Spark dataframe have toRDD() method but I don't understand how It's useful. Can we start a SQL streaming job by processing converted source dataset to RDD instead of making and starting DataStreamWriter?

推荐答案

Dataset 为批处理和流处理提供统一的 API,并不是每种方法都适用于流数据集.如果仔细搜索,您会发现其他不能用于流式数据集的方法(例如 describe).

Dataset provides uniform API for both batch and streaming processing and not every method is applicable to streaming Datasets. If you search carefully, you'll find other methods which cannot be used with streaming Datasets (for example describe).

我们可以通过将转换后的源数据集处理为 RDD 而不是创建和启动 DataStreamWriter 来启动 SQL 流作业吗?

Can we start a SQL streaming job by processing converted source dataset to RDD instead of making and starting DataStreamWriter?

我们不能.在结构化流媒体中开始的东西,仍然在结构化流媒体中.不允许转换为 RDD.

We cannot. What starts in structured streaming, stays in structured streaming. Conversions to RDD are not allowed.

这篇关于使用 Spark SQL 数据集作为基于 RDD 的作业的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆