spark-streaming相关内容

Spark Streaming + Kafka 集成:支持新主题订阅,无需重新启动流上下文

我正在使用 spark 流应用程序 (spark 2.1) 来使用来自 kafka(0.10.1) 主题的数据.我想订阅新主题无需重新启动流上下文.有没有办法实现这一目标? 我可以在 apache spark 项目中看到相同的 jira 票证(https://issues.apache.org/jira/browse/SPARK-10320),即使它在 2.0 版本中关闭,我也找不到任何文档 ..
发布时间:2021-11-12 03:02:19 其他开发

使用不同的 StreamingContext 依次打开两个 KafkaStreams

我目前正在尝试在 Spark 流中实现一个两阶段的过程.首先,我打开一个 kafkaStream,使用 auto.offset.reset=earliest 读取主题中已有的所有内容,并在其上训练我的模型.我为此使用了一个流,因为我无法在不打开流的情况下找到如何做到这一点 (Spark - 在不打开流的情况下获取 Kafka 的最早和最新偏移量).由于我还没有发现一种在不停止整个 Streamin ..
发布时间:2021-11-12 02:55:01 其他开发

创建数据帧时输出不当

我正在尝试使用 Scala 应用程序从 kafka 主题流式传输数据.我能够从主题中获取数据,但是如何从中创建数据框? 这里是数据(字符串,字符串格式) {"action": "AppEvent",“租户":298,“纬度":0.0,"lon": 0.0,"memberid": 16390,"event_name": "CATEGORY_CLICK","productUpccd": 0," ..
发布时间:2021-11-12 02:54:16 其他开发

Spark错误:无效的日志目录/app/spark/spark-1.6.1-bin-hadoop2.6/work/app-20161018015113-0000/3/

我的 spark 应用程序因上述错误而失败. 实际上我的 spark 程序正在将日志写入该目录.stderr 和 stdout 都被写入所有工作人员. 我的程序以前可以正常工作.但是昨天我改变了指向 SPARK_WORKER_DIR 的 fodler.但是今天我把旧的设置放回去并重新启动了火花. 谁能告诉我为什么我会收到这个错误的线索? 解决方案 在我的情况下,问题是由激 ..
发布时间:2021-11-12 02:52:09 其他开发

如何在使用 Spark 1.6 的集群上运行使用 Spark 2.1 组装的 Spark 应用程序?

有人告诉我,我可以用一个版本的 Spark 构建一个 Spark 应用程序,只要我使用 sbt assembly 来构建它,我就可以通过 spark-submit 来运行它任何火花簇. 所以,我使用 Spark 2.1.1 构建了我的简单应用程序.你可以在下面看到我的 build.sbt 文件.比我在我的集​​群上开始这个: cd spark-1.6.0-bin-hadoop2.6/bin ..

Spark Streaming 应用程序因 KafkaException:字符串超过最大大小或 IllegalArgumentException 而失败

TL;博士: 我非常简单的 Spark Streaming 应用程序在驱动程序中失败,并显示“KafkaException:字符串超出最大大小".我在执行程序中看到了相同的异常,但我也在执行程序日志的某个地方发现了一个 IllegalArgumentException,其中没有其他信息 完整问题: 我正在使用 Spark Streaming 从 Kafka 主题中读取一些消息.这 ..

关于访问 Tuple2 中的字段时出错

我试图访问 Tuple2 中的一个字段,编译器返回一个错误.该软件尝试在 kafka 主题中推送案例类,然后我想使用火花流恢复它,以便我可以提供机器学习算法并将结果保存在 mongo 实例中. 解决了! 我终于解决了我的问题,我将发布最终解决方案: 这是github项目: https://github.com/alonsoir/awesome-recommendation-en ..
发布时间:2021-11-12 02:48:09 其他开发

Spark Streaming 不读取 Kafka 主题

我已经在 Ubuntu 上设置了 Kafka 和 Spark.我正在尝试使用 pyspark(Jupyter notebook)通过 Spark Streaming 阅读 kafka 主题.Spark 既不读取数据也不抛出任何错误. Kafka 生产者和消费者在终端上相互通信.Kafka 在端口 9092,9093,9094 上配置了 3 个分区.消息被存储在 kafka 主题中.现在,我想 ..