如何使用PySpark为Kafka流制作数据帧? [英] How to make a dataframe for kafka streaming using PySpark?

查看:44
本文介绍了如何使用PySpark为Kafka流制作数据帧?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在使用kafka版本2.11-1.0.1和Spark版本2.0.2.我必须为kafka响应创建一个数据框.那么,如何为kafkaStream制作数据框?在此先感谢

I am using kafka version 2.11-1.0.1 and Spark version 2.0.2. I have to make a dataframe for kafka response. So How Can I make dataframe for kafkaStream? Thanks In Advance

推荐答案

如您所说,

kvs = KafkaUtils.createStream(ssc, zkQuorum, "spark-streaming-consumer3", {topic: 1})
lines = kvs.map(lambda x: x[1])

在这里, lines rdds dStream ,而不是单个 rdd 本身.因此,要获取数据帧,必须将其转换为数据帧的 dStream .像这样的东西

Here, lines is a dStream of rdds and not a single a rdd in itself. Hence, to get a dataframe you have to convert it into a dStream of dataframes. Something like this,

lines.foreachRDD(lambda rdd: rdd.toDF())

这篇关于如何使用PySpark为Kafka流制作数据帧?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆