spark-streaming-kafka - IT屋-程序员软件开发技术分享社区

未能找到话题的领导者；java.lang.NullPointerException NullPointerException 在 org.apache.kafka.common.utils.Utils.formatAddress

当我们尝试从启用 SSL 的 Kafka 主题流式传输数据时，我们面临以下错误.你能帮我们解决这个问题吗? 19/11/07 13:26:54 INFO ConsumerFetcherManager:[ConsumerFetcherManager-1573151189884] 为分区 ArrayBuffer() 添加了提取器19/11/07 13:26:54 WARN ConsumerFetch ..

发布时间：2021-12-22 21:32:16 apache-spark pyspark apache-kafka spark-streaming-kafka 其他开发

spark如何计算给定窗口间隔的窗口开始时间?

考虑我有一个带有时间戳字段列的输入 df 并且在将窗口持续时间(没有滑动间隔)设置为: 10 分钟输入时间(2019-02-28 22:33:02) 形成的窗口为 (2019-02-28 22:30:02) to (2019-02-28 22:40:02) 8 分钟输入相同的时间(2019-02-28 22:33:02) 形成的窗口为 (2019-02-28 22: ..

发布时间：2021-11-14 23:15:26 apache-spark apache-spark-sql spark-structured-streaming spark-streaming-kafka spark-checkpoint 其他开发

Kafka Producer - 找不到 org.apache.kafka.common.serialization.StringSerializer

我创建了一个简单的 Kafka Producer &消费者.我正在使用 kafka_2.11-0.9.0.0.这是我的生产者代码. 公共类KafkaProducerTest {public static String topicName = "test-topic-2";公共静态无效主(字符串 [] args){//TODO 自动生成的方法存根Properties props = new Pro ..

发布时间：2021-11-12 03:46:12 apache-spark apache-kafka apache-karaf spark-streaming-kafka 其他开发

Spark Streaming 卡夫卡流

我在尝试使用 Spark Streaming 从 kafka 读取时遇到一些问题. 我的代码是: val sparkConf = new SparkConf().setMaster("local[2]").setAppName("KafkaIngestor")val ssc = new StreamingContext(sparkConf, Seconds(2))val kafkaPara ..

发布时间：2021-11-12 02:45:49 apache-spark apache-kafka spark-streaming spark-streaming-kafka 其他开发

pyspark 是否支持 spark-streaming-kafka-0-10 lib?

我的kafka集群版本是0.10.0.0，想用pyspark流读取kafka数据.但在 Spark Streaming + Kafka 集成指南中，http:///spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html没有python代码示例.那么pyspark可以使用spark-streaming-kafka-0-10 ..

发布时间：2021-11-12 02:42:10 pyspark apache-kafka spark-streaming-kafka 其他开发

Spark Streaming Kafka 集成直接方法 EOFException

当我运行火花流示例 org.apache.spark.examples.streaming.JavaDirectKafkaWordCount 时，我发现了一个 EOFException 跟随，我该如何解决它线程“main"org.apache.spark.SparkException 中的异常:java.io.EOFException:从通道读取时收到 -1，套接字可能已关闭.java.io. ..

发布时间：2021-11-12 02:38:24 apache-spark apache-kafka streaming eofexception spark-streaming-kafka 其他开发

反序列化来自 Kafka 主题的 Spark 结构化流数据

我正在使用 Kafka 2.3.0 和 Spark 2.3.4.我已经构建了一个 Kafka 连接器，它读取 CSV 文件并将一行从 CSV 发布到相关的 Kafka 主题.该行是这样的:"201310,XYZ001,Sup,XYZ,A,0,Presales,6,Callout,0,0,1,N,Prospect".CSV 包含 1000 条这样的行.连接器能够成功地将它们发布到主题上，我也能够在 ..

发布时间：2021-11-12 02:36:21 apache-spark apache-kafka spark-streaming-kafka 其他开发

Spark Streaming Kafka createDirectStream - Spark UI 将输入事件大小显示为零

我已经使用 createDirectStream 实现了 Spark Streaming.我的 Kafka 生产者每秒向具有两个分区的主题发送多条消息. 在 Spark 流媒体方面，我每秒读取一次 kafka 消息，然后我将它们按 5 秒的窗口大小和频率进行窗口化. Kafka 消息得到了正确处理，我看到了正确的计算和打印. 但在 Spark Web UI 中，在 Strea ..

发布时间：2021-11-12 02:29:22 apache-spark apache-kafka spark-streaming spark-streaming-kafka 其他开发

从火花流中的kafka消息中提取时间戳?

尝试从 kafka 源中读取.我想从收到的消息中提取时间戳以进行结构化火花流.卡夫卡(版本 0.10.0.0)火花流(2.0.1版) 解决方案 spark.read.format("卡夫卡").option("kafka.bootstrap.servers", "your.server.com:9092").option("订阅", "你的主题").加载().select($"timest ..

发布时间：2021-11-12 02:28:47 apache-kafka spark-streaming spark-streaming-kafka 其他开发

spark提交失败，spark流workdcount python代码

我刚刚复制了spark streaming wodcount python代码，在Spark集群中使用spark-submit运行wordcount python代码，但是显示如下错误: py4j.protocol.Py4JJavaError:调用 o23.loadClass 时发生错误.:java.lang.ClassNotFoundException:org.apache.spark.str ..

发布时间：2021-11-12 02:23:26 apache-spark apache-kafka spark-streaming spark-streaming-kafka 其他开发

Spark Structured Streaming Kafka Microbatch 计数

我正在使用 Spark 结构化流从 Kafka 主题读取记录；我打算计算 Spark readstream 中每个“微批次"中收到的记录数这是一个片段: val kafka_df = sparkSession.readStream.format("卡夫卡").option("kafka.bootstrap.servers", "host:port").option("订阅", "测试计数" ..

发布时间：2021-11-12 02:22:51 apache-spark apache-kafka spark-structured-streaming spark-streaming-kafka 其他开发

Spark Streaming kafka 偏移管理

我一直在做火花流作业，通过 kafka 消费和生产数据.我用的是directDstream，所以必须自己管理offset，我们采用redis来写和读offset.现在有一个问题，当我启动我的客户端时，我的客户端需要从redis中获取offset，而不是kafka中存在的offset它自己.如何显示我编写的代码?现在我已经在下面编写了代码: kafka_stream = KafkaUtils.c ..

发布时间：2021-11-12 02:15:51 apache-spark apache-kafka spark-streaming offset spark-streaming-kafka 其他开发

如何在Kafka中通过Spark产生消息均匀分布数据?

我有一个将数据写入 Kafka 的流式作业，我注意到其中一个 Kafka 分区(#3)比其他分区需要更多的数据. +-----------------------------------------------------+|分区|留言 |最早的偏移量|下一个偏移|+-----------------------------------------------------+|1 |1665227 ..

发布时间：2021-11-12 02:04:42 apache-spark apache-kafka spark-streaming-kafka 其他开发

Pyspark 找不到数据源:kafka

我正在研究 Kafka 流媒体并尝试将其与 Apache Spark 集成.但是，在运行时我遇到了问题.我收到以下错误. 这是我正在使用的命令. df_TR = Spark.readStream.format("kafka").option("kafka.bootstrap.servers", "localhost:9092").option("subscribe", "taxirid ..

发布时间：2021-11-12 02:02:00 apache-spark pyspark apache-kafka spark-streaming-kafka 其他开发

Kafka Producer - 找不到 org.apache.kafka.common.serialization.StringSerializer

我创建了一个简单的 Kafka Producer &消费者.我正在使用 kafka_2.11-0.9.0.0.这是我的生产者代码. 公共类KafkaProducerTest {public static String topicName = "test-topic-2";公共静态无效主(字符串 [] args){//TODO 自动生成的方法存根Properties props = new Pro ..

发布时间：2021-11-12 01:56:23 apache-spark apache-kafka apache-karaf spark-streaming-kafka 其他开发

未能找到话题的领导者；java.lang.NullPointerException NullPointerException at org.apache.kafka.common.utils.Utils.formatAddress

当我们尝试从启用 SSL 的 Kafka 主题流式传输数据时，我们面临以下错误.你能帮我们解决这个问题吗? 19/11/07 13:26:54 INFO ConsumerFetcherManager:[ConsumerFetcherManager-1573151189884] 为分区 ArrayBuffer() 添加了提取器19/11/07 13:26:54 警告 ConsumerFetcher ..

发布时间：2021-11-12 01:45:40 apache-spark pyspark apache-kafka spark-streaming-kafka 其他开发

pyspark 结构化流式写入分批写入镶木地板

我正在对 Spark 结构化流数据帧进行一些转换.我将转换后的数据帧作为镶木地板文件存储在 hdfs 中.现在我希望写入 hdfs 应该分批进行，而不是先转换整个数据帧然后存储数据帧. 解决方案这是一个镶木地板水槽示例: # 镶木地板水槽示例targetParquetHDFS = sourceTopicKAFKA.writeStream.format("parquet") # 可以是 ..

发布时间：2021-06-24 20:39:19 pyspark spark-streaming spark-structured-streaming spark-streaming-kafka 其他开发

spark如何计算给定窗口间隔下的窗口开始时间?

考虑一下，当将窗口持续时间(无滑动间隔)设置为时，我有一个带有时间戳字段列的输入df: 10分钟输入时间(2019-02-28 22:33:02) 形成的窗口为(2019-02-28 22:30:02)到(2019-02-28 22:40:02) 8分钟使用相同的时间输入(2019-02-28 22:33:02) 形成的窗口为((2019-02-28 22:26:0 ..

发布时间：2021-04-08 20:07:31 apache-spark apache-spark-sql spark-structured-streaming spark-streaming-kafka spark-checkpoint 其他开发

如何在Spark结构化流上执行单元测试?

我想了解Spark结构化流的单元测试方面.我的情况是，我要从Kafka获取数据，然后使用Spark结构化流对其进行消费，并在数据之上进行一些转换. 我不确定如何使用Scala和Spark进行测试.有人可以告诉我如何使用Scala在结构化流中进行单元测试.我是流媒体新手. 解决方案 tl; dr 使用 MemoryStream 为输出添加事件和内存接收器. 以下代码应有助于入门: ..

发布时间：2021-04-08 19:29:03 apache-spark spark-structured-streaming spark-streaming-kafka 其他开发

在同一个Spark会话中运行多个Spark Kafka结构化流查询会增加偏移量，但显示numInputRows 0

我有一个Spark结构化流，使用了来自Kafka主题的2个分区的记录. Spark Job::2个查询，每个查询都来自2个单独的分区，并在同一spark会话中运行. val df1 = session.readStream.format("kafka").option("kafka.bootstrap.servers"，kafkaBootstrapServer).option(“分配"， ..

发布时间：2021-04-08 19:25:55 apache-spark spark-streaming-kafka 其他开发

spark-streaming-kafka相关内容