spark-streaming相关内容

Kafka 上的 Spark Streaming 为来自 kafka 的不同值打印不同的案例

我在下面说明我的情况:10000 - 服务器正在发送 DF 大小数据.(每 5 秒就有 10,000 个输入到来) 如果对于任何服务器 DF 大小超过 70% 打印,将 ROM 大小增加 20%如果任何服务器使用的 DF 大小小于 30%,则将 ROM 大小减少 25%. 我提供了一个从 kafka 获取消息并与“%"匹配并执行 to.upper() 的代码.此代码仅用于参考我的 ka ..
发布时间:2021-11-12 02:38:46 其他开发

Spark 将 kafka 批量流式传输到单个文件中

我正在使用批处理流 (maxRatePerPartition 10.000) 从 Kafka 流式传输数据.所以在每个批次中,我处理 10.000 条 kafka 消息. 在这个批处理运行中,我通过从 rdd 创建一个数据帧来处理每条消息.处理后,我使用:dataFrame.write.mode(SaveMode.append) 将每个处理过的记录保存到同一个文件中.因此它将所有消息附加到同 ..
发布时间:2021-11-12 02:38:37 其他开发

在 Spark Streaming 中合并微批次

(我对批处理火花知之甚少,但对火花流一无所知) 问题 我有一个 kafka 主题 Kafka[(A,B)->X] 其中 (A,B) 是键(A 和 B 是简单的数字类型),X 是消息类型,比较大(几 Mb​​).抛开输入失败的问题,数据是一个网格:对于A中的每一个a,都会有消息(a,b) 用于 B 中的所有 b.此外,b 是有序的,我认为我们可以假设一个 a 的所有消息都将按照 b 的顺 ..
发布时间:2021-11-12 02:30:49 其他开发

Spark Streaming - 基于过滤器参数拆分输入流的最佳方法

我目前尝试创建某种监控解决方案 - 一些数据被写入 kafka,我使用 Spark Streaming 读取这些数据并对其进行处理. 为了预处理机器学习和异常检测的数据,我想根据一些过滤器参数拆分流.到目前为止,我已经了解到 DStreams 本身不能分成几个流. 我主要面临的问题是许多算法(如 KMeans)只采用连续数据而不是离散数据,例如url 或其他一些字符串. 我的理想 ..

如何在启动 Spark Streaming 进程时加载历史数据,并计算运行聚合

我的 ElasticSearch 集群中有一些与销售相关的 JSON 数据,我想使用 Spark Streaming(使用 Spark 1.4.1)通过 Kafka 从我的电子商务网站动态聚合传入的销售事件,以获取当前视图用户的总销售额(就收入和产品而言). 从我阅读的文档中我不太清楚的是如何在 Spark 应用程序启动时从 ElasticSearch 加载历史数据,并计算例如每个用户的总收 ..

Spark Streaming Kafka createDirectStream - Spark UI 将输入事件大小显示为零

我已经使用 createDirectStream 实现了 Spark Streaming.我的 Kafka 生产者每秒向具有两​​个分区的主题发送多条消息. 在 Spark 流媒体方面,我每秒读取一次 kafka 消息,然后我将它们按 5 秒的窗口大小和频率进行窗口化. Kafka 消息得到了正确处理,我看到了正确的计算和打印. 但在 Spark Web UI 中,在 Strea ..

是否可以在 Kafka+SparkStreaming 中获取特定的消息偏移量?

我正在尝试使用 Spark Direct Stream 获取并存储 Kafka 中特定消息的偏移量.查看 Spark 文档很容易获取每个分区的范围偏移量,但我需要的是在完全扫描队列后存储主题的每条消息的起始偏移量. 解决方案 是的,你可以使用 MessageAndMetadata 版本的 createDirectStream 允许您访问消息元数据. 您可以在此处找到返回 tuple3 ..

来自 Kafka 的 Spark Streaming 有错误 numRecords 不能为负

这是一种奇怪的错误,因为我仍然将数据推送到 kafka 并使用来自 kafka 的消息和 线程“main"中的异常;java.lang.IllegalArgumentException:要求失败:numRecords 不能为负也有点奇怪.我搜索并没有得到任何相关的资源. 让我解释一下我的集群.我有 1 个服务器是主服务器,代理运行 mesos,我在上面设置了 3 个 kafka 代理.然后我 ..
发布时间:2021-11-12 02:24:23 其他开发

Kafka + Spark Streaming:1 秒的恒定延迟

EDIT2:最后,我使用 Java 制作了自己的生产者,并且运行良好,所以问题出在 Kafka-console-producer.kafka-console-consumer 运行良好. 编辑:我已经尝试过 0.9.0.1 版本并且具有相同的行为. 我正在完成我的学士期末项目,即 Spark Streaming 和 Flink 之间的比较.在这两个框架之前,我使用 Kafka 和脚本来 ..

带有 --repositories --packages 选项的 spark-submit 类路径问题

我在一个独立的集群中运行 Spark,其中 spark master、worker 和提交每个运行都在自己的 Docker 容器中. 当 spark-submit 我的 Java 应用程序带有 --repositories 和 --packages 选项时,我可以看到它成功下载了应用程序所需的依赖项.然而,stderr 日志在 spark workers 网络用户界面上报告了 java.la ..
发布时间:2021-11-12 02:21:25 其他开发