spark-streaming相关内容

有什么办法可以扁平化电光流媒体中的嵌套JSON吗?

我已经编写了一个数据集火花作业(批处理)代码来扁平化数据,运行正常,但当我尝试在火花流作业中使用相同的代码片段时,它抛出以下错误 必须使用WriteStream.start(); 执行具有流来源的查询 那么,有什么方法可以在流作业中展平嵌套的JSON吗? 样本输入嵌套JSON- { "name":" Akash", "age":26, "watches":{ ..
发布时间:2022-03-29 19:55:13 Java开发

是否可以从火花流检查点恢复广播值

在我的电光流媒体项目中,我使用HBase-电光录制PV/UV。然后,当我关闭应用程序并重启它时,在检查点恢复时出现以下异常: 16/03/02 10:17:21错误HBaseContext:无法从广播获取配置 java.lang.ClassCastException:[B不能强制转换为org.apache.partk.SerializableWritable 在com.paitao.xmli ..
发布时间:2022-03-29 19:44:22 其他开发

为什么我的火花流工作有这么多任务

我想知道为什么我的火花流工作中有这么多任务编号?它变得越来越大... 运行3.2h后,增长到120020。运行一天后,它将增长到100万...为什么? 推荐答案 此SparkUI功能意味着某些阶段依赖项可能已计算过,也可能没有计算过,但由于其输出已可用而被跳过。因此,它们表现为skipped。 请不要使用might,这意味着在作业完成Spark之前,无法确定是否需要返回并重新计 ..
发布时间:2022-03-29 19:35:24 其他开发

如何在使用Scala读取HDFS目录后删除该目录中的文件?

我使用fileStream从Spark(流上下文)读取HDFS目录中的文件。如果我的Spark在一段时间后关闭并启动,我希望读取目录中的新文件。我不想读取Spark已经读取和处理过的目录中的旧文件。我在此尽量避免重复。 val lines = ssc.fileStream[LongWritable, Text, TextInputFormat]("/home/File") 是否有需要帮助 ..
发布时间:2022-03-29 19:33:04 其他开发

Spark文件流问题

我正在尝试使用SparkStreaming(Spark-Streaming_2.10,版本:1.5.1)的简单文件流传输示例 public class DStreamExample { public static void main(final String[] args) { final SparkConf sparkConf = new SparkConf() ..
发布时间:2022-03-29 19:23:30 其他开发

JavaDStreamPairRDD的自定义分区

在电光流媒体中,推荐的在DStream上实现自定义分区程序的方式是什么? 我在批处理模式下使用了JavaPairRDD.artitionBy(分区程序),但在JavaDStreamPairRDD上找不到等效的分区程序。 谢谢 推荐答案 DStream上的分区是通过从接收方获取数据的过程创建的。由每个接收器创建的数据流被切割成大小spark.streaming.blockIn ..
发布时间:2022-03-29 19:18:00 其他开发

到Amazon S3的Spark流检查点

我正在尝试将RDD检查点设置为非HDFS系统。从DSE document看起来不可能使用Cassandra文件系统。因此,我计划使用Amazon S3。但我找不到任何使用AWS的好例子。 问题 如何使用Amazon S3作为检查点目录?是否仅够调用 Ssc.check point(Amazons3url)? 除了Hadoop文件系统之外,检查点还可以有其他可靠的数据存储吗? 推 ..
发布时间:2022-03-29 19:15:31 其他开发

作业提交时的Scala fat jar依赖问题

我使用 Scala 编写了简单的 kafka 流.它在当地运作良好.我已经拿了肥罐并在 scala 集群中提交.提交作业后,我收到类未找到错误.如果我提取 fat jar,它在 fat jar 中具有所有依赖项. 为什么我得到 class not found 错误?如何解决? 注意:如果我手动将 fat jar 部署(复制)到 Spark/jars 文件夹中.我看不出有什么问题.但是, ..
发布时间:2022-01-24 22:22:25 其他开发

一段时间后停止 Spark Streaming 中的流上下文

我构建了一个从 Twitter 接收 DStream 的应用程序,停止 Streaming 上下文的唯一方法是停止执行.我想知道是否有一种方法可以在不停止整个应用程序的情况下设置时间并终止流式套接字? 解决方案 您可以使用任一 awaitTerminationOrTimeout(long) 如上一个答案中所述,或者您可以从其他线程手动停止流上下文: //在主线程中等待终止();//将 ..
发布时间:2022-01-07 20:40:58 其他开发

线程“main"中的异常org.apache.spark.SparkException:此 JVM 中可能仅运行一个 SparkContext(请参阅 SPARK-2243)

当我尝试使用 cassandra 运行 Spark 应用程序时出现错误. 线程“main" org.apache.spark.SparkException 中的异常:只有一个 SparkContext 可能在这个 JVM 中运行(参见 SPARK-2243). 我使用的是 spark 版本 1.2.0,很明显我在我的应用程序中只使用了一个 spark 上下文.但是每当我尝试添加以下代码用于流式 ..
发布时间:2021-12-31 17:45:11 Java开发

Spark-submit 找不到本地文件

我已经编写了一个非常简单的 python 脚本来测试我的 Spark 流创意,并计划在我的本地机器上运行它以稍微搞砸一下.这是命令行: spark-submit spark_streaming.py localhost 9999 但是终端给我一个错误: Error execution Jupyter command '': [Errno 2] No such file or director ..
发布时间:2021-12-22 21:24:42 其他开发

如何在同一个 Spark 项目中同时使用 Scala 和 Python?

是否可以将 Spark RDD 通过管道传输到 Python? 因为我需要一个 python 库来对我的数据进行一些计算,但是我的主要 Spark 项目是基于 Scala 的.有没有办法将它们混合或让 python 访问相同的 spark 上下文? 解决方案 您确实可以使用 Scala 和 Spark 以及常规 Python 脚本输出到 Python 脚本. test.py ..
发布时间:2021-12-22 21:18:21 Python