如何使用 PySpark 为 kafka 流制作数据框? [英] How to make a dataframe for kafka streaming using PySpark?

查看：28 发布时间：2021/11/12 3:23:26 apache-spark pyspark apache-kafka

本文介绍了如何使用 PySpark 为 kafka 流制作数据框?的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我使用的是 kafka 版本 2.11-1.0.1 和 Spark 版本 2.0.2.我必须为 kafka 响应制作一个数据框.那么如何为 kafkaStream 制作数据框?提前致谢

I am using kafka version 2.11-1.0.1 and Spark version 2.0.2. I have to make a dataframe for kafka response. So How Can I make dataframe for kafkaStream? Thanks In Advance

推荐答案

正如你所说，

kvs = KafkaUtils.createStream(ssc, zkQuorum, "spark-streaming-consumer3", {topic: 1})
lines = kvs.map(lambda x: x[1])

这里，lines 是 rdds 的 dStream 而不是单个 rdd 本身.因此，要获取数据帧，您必须将其转换为数据帧的 dStream.像这样，

Here, lines is a dStream of rdds and not a single a rdd in itself. Hence, to get a dataframe you have to convert it into a dStream of dataframes. Something like this,

lines.foreachRDD(lambda rdd: rdd.toDF())

这篇关于如何使用 PySpark 为 kafka 流制作数据框?的文章就介绍到这了，希望我们推荐的答案对大家有所帮助，也希望大家多多支持IT屋！

查看全文

如何使用 PySpark 为 kafka 流制作数据框? [英] How to make a dataframe for kafka streaming using PySpark?

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

如何使用 PySpark 为 kafka 流制作数据框? [英] How to make a dataframe for kafka streaming using PySpark?

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭