spark-streaming-kafka相关内容
当我们尝试从启用 SSL 的 Kafka 主题流式传输数据时,我们面临以下错误.你能帮我们解决这个问题吗? 19/11/07 13:26:54 INFO ConsumerFetcherManager:[ConsumerFetcherManager-1573151189884] 为分区 ArrayBuffer() 添加了提取器19/11/07 13:26:54 WARN ConsumerFetch
..
考虑我有一个带有时间戳字段列的输入 df 并且在将窗口持续时间(没有滑动间隔)设置为: 10 分钟 输入时间(2019-02-28 22:33:02) 形成的窗口为 (2019-02-28 22:30:02) to (2019-02-28 22:40:02) 8 分钟 输入相同的时间(2019-02-28 22:33:02) 形成的窗口为 (2019-02-28 22:
..
我创建了一个简单的 Kafka Producer &消费者.我正在使用 kafka_2.11-0.9.0.0.这是我的生产者代码. 公共类KafkaProducerTest {public static String topicName = "test-topic-2";公共静态无效主(字符串 [] args){//TODO 自动生成的方法存根Properties props = new Pro
..
我在尝试使用 Spark Streaming 从 kafka 读取时遇到一些问题. 我的代码是: val sparkConf = new SparkConf().setMaster("local[2]").setAppName("KafkaIngestor")val ssc = new StreamingContext(sparkConf, Seconds(2))val kafkaPara
..
我的kafka集群版本是0.10.0.0,想用pyspark流读取kafka数据.但在 Spark Streaming + Kafka 集成指南中,http:///spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html没有python代码示例.那么pyspark可以使用spark-streaming-kafka-0-10
..
当我运行火花流示例 org.apache.spark.examples.streaming.JavaDirectKafkaWordCount 时,我发现了一个 EOFException 跟随,我该如何解决它 线程“main"org.apache.spark.SparkException 中的异常:java.io.EOFException:从通道读取时收到 -1,套接字可能已关闭.java.io.
..
我正在使用 Kafka 2.3.0 和 Spark 2.3.4.我已经构建了一个 Kafka 连接器,它读取 CSV 文件并将一行从 CSV 发布到相关的 Kafka 主题.该行是这样的:"201310,XYZ001,Sup,XYZ,A,0,Presales,6,Callout,0,0,1,N,Prospect".CSV 包含 1000 条这样的行.连接器能够成功地将它们发布到主题上,我也能够在
..
我已经使用 createDirectStream 实现了 Spark Streaming.我的 Kafka 生产者每秒向具有两个分区的主题发送多条消息. 在 Spark 流媒体方面,我每秒读取一次 kafka 消息,然后我将它们按 5 秒的窗口大小和频率进行窗口化. Kafka 消息得到了正确处理,我看到了正确的计算和打印. 但在 Spark Web UI 中,在 Strea
..
尝试从 kafka 源中读取.我想从收到的消息中提取时间戳以进行结构化火花流.卡夫卡(版本 0.10.0.0)火花流(2.0.1版) 解决方案 spark.read.format("卡夫卡").option("kafka.bootstrap.servers", "your.server.com:9092").option("订阅", "你的主题").加载().select($"timest
..
我刚刚复制了spark streaming wodcount python代码,在Spark集群中使用spark-submit运行wordcount python代码,但是显示如下错误: py4j.protocol.Py4JJavaError:调用 o23.loadClass 时发生错误.:java.lang.ClassNotFoundException:org.apache.spark.str
..
我正在使用 Spark 结构化流从 Kafka 主题读取记录;我打算计算 Spark readstream 中每个“微批次"中收到的记录数 这是一个片段: val kafka_df = sparkSession.readStream.format("卡夫卡").option("kafka.bootstrap.servers", "host:port").option("订阅", "测试计数"
..
我一直在做火花流作业,通过 kafka 消费和生产数据.我用的是directDstream,所以必须自己管理offset,我们采用redis来写和读offset.现在有一个问题,当我启动我的客户端时,我的客户端需要从redis中获取offset,而不是kafka中存在的offset它自己.如何显示我编写的代码?现在我已经在下面编写了代码: kafka_stream = KafkaUtils.c
..
我有一个将数据写入 Kafka 的流式作业,我注意到其中一个 Kafka 分区(#3)比其他分区需要更多的数据. +-----------------------------------------------------+|分区|留言 |最早的偏移量|下一个偏移|+-----------------------------------------------------+|1 |1665227
..
我正在研究 Kafka 流媒体并尝试将其与 Apache Spark 集成.但是,在运行时我遇到了问题.我收到以下错误. 这是我正在使用的命令. df_TR = Spark.readStream.format("kafka").option("kafka.bootstrap.servers", "localhost:9092").option("subscribe", "taxirid
..
我创建了一个简单的 Kafka Producer &消费者.我正在使用 kafka_2.11-0.9.0.0.这是我的生产者代码. 公共类KafkaProducerTest {public static String topicName = "test-topic-2";公共静态无效主(字符串 [] args){//TODO 自动生成的方法存根Properties props = new Pro
..
当我们尝试从启用 SSL 的 Kafka 主题流式传输数据时,我们面临以下错误.你能帮我们解决这个问题吗? 19/11/07 13:26:54 INFO ConsumerFetcherManager:[ConsumerFetcherManager-1573151189884] 为分区 ArrayBuffer() 添加了提取器19/11/07 13:26:54 警告 ConsumerFetcher
..
我正在对 Spark 结构化流数据帧进行一些转换.我将转换后的数据帧作为镶木地板文件存储在 hdfs 中.现在我希望写入 hdfs 应该分批进行,而不是先转换整个数据帧然后存储数据帧. 解决方案 这是一个镶木地板水槽示例: # 镶木地板水槽示例targetParquetHDFS = sourceTopicKAFKA.writeStream.format("parquet") # 可以是
..
考虑一下,当将窗口持续时间(无滑动间隔)设置为时,我有一个带有时间戳字段列的输入df: 10分钟 输入时间(2019-02-28 22:33:02) 形成的窗口为(2019-02-28 22:30:02)到(2019-02-28 22:40:02) 8分钟 使用相同的时间输入(2019-02-28 22:33:02) 形成的窗口为((2019-02-28 22:26:0
..
我想了解Spark结构化流的单元测试方面.我的情况是,我要从Kafka获取数据,然后使用Spark结构化流对其进行消费,并在数据之上进行一些转换. 我不确定如何使用Scala和Spark进行测试.有人可以告诉我如何使用Scala在结构化流中进行单元测试.我是流媒体新手. 解决方案 tl; dr 使用 MemoryStream 为输出添加事件和内存接收器. 以下代码应有助于入门:
..
我有一个Spark结构化流,使用了来自Kafka主题的2个分区的记录. Spark Job::2个查询,每个查询都来自2个单独的分区,并在同一spark会话中运行. val df1 = session.readStream.format("kafka").option("kafka.bootstrap.servers",kafkaBootstrapServer).option(“分配",
..