spark-streaming相关内容

星火流投掷java.net.ConnectException

下面简单星火计划运行的精绝,如果我为“SBT运行”运行。但是,如果我运行, 1)为“火花submit.cmd eventfilter组装-0.1-SNAPSHOT.jar ”。其中使用“SBT集结号”与“提供%”与“流和SQL”的SBT规则创建的罐子。 2)“火花submit.cmd --jar播放json_2.10-2.3.10.jar seventfilter_2.10-0.1-SNAPS ..
发布时间:2016-05-22 16:43:37 其他开发

星火mesos集群模式比本地模式慢

我提交相同的瓶子用本地模式和mesos集群模式下运行。并发现一些完全相同的阶段,本地模式只需要几毫秒才能完成但是集群模式将采取秒!上市 是一个例子:659期 本机模式: 659 从数据流作业[输出操作1,批量时间十七点45分50秒] 地图在KafkaHelper.scala:35 +细节 2016年3月22日17时46分31秒11毫秒 mesos群集模式: 659 从数据流作业[ ..
发布时间:2016-05-22 16:40:48 其他开发

如何包装火花斯卡拉应用

我已经开发出使用SparkSQL和SparkStreaming一个独立的火花Scala的应用程序。 这工作正常在Eclipse被配置为火花。 我在Maven的新手。 要打包使用maven这个应用程序,我也跟着下面的教程 的http://ryancompton.net/2014/05/19/sample-pomxml-to-build-scala--jar-with-dependencies ..
发布时间:2016-05-22 16:37:10 其他开发

检测连接火花失去流

我目前正在与Apache的火花流工作。我想知道如何检测连接是否丢失或无法与外部数据源,所以我们可能会停止流并重新启动连接到数据源。 在此先感谢您的帮助。 解决方案 侦听器添加到您的接收器,当接收器已经停止停止流上下文。 例如: streamContext.addStreamingListener(新StreamingListener(){ @覆盖 公共 ..
发布时间:2016-05-22 16:37:02 其他开发

添加最大值和最小值火花流JAVA?

我想它的元组的火花dstream..each增加最大和最小每个RDD。我写了下面code,但不知道如何传递参数的最小值和最大值。 任何人都可以提出一个办法做到这一点转型? 我试过如下: JavaPairDStream< Tuple2<长,整数>中Tuple3<为Integer,Long,龙>> sortedtsStream = transformedMa ..
发布时间:2016-05-22 16:35:46 Java开发

星火流:如何更新广播变量传播到整个集群?

我在星火驱动模块听着卡夫卡的队列,并根据队列的我需要修改广播变量(或关闭)的内容的内容。在这个例子中,这可能是一个字符串。 例如,如果字符串“变”到达队列中,我需要更新的每个节点广播变量。 我想看到一个模式来做到这一点是干净的,高性能的,或者至少收到我在哪里可以找到一些材料,以更好地了解如何在Spark集群传播的修改输入。 解决方案 广播变量确实传播变量或全封闭的火花集群,使用点对点协 ..
发布时间:2016-05-22 16:35:00 其他开发

在星火Java的移动平均线

我的实时数据流进入的火花,我想这样做在该时间序列数据移动平均预测。有什么办法来实现这个使用的火花在Java中? 我已经提到: https://gist.github.com/samklr/27411098f04fc46dcd05 / 的修订 和 阿帕奇星火移动平均 但是这两个codeS都写在斯卡拉。因为我不熟悉的斯卡拉,我无法判断我是否会觉得有用,甚至code转换成Java。 是否有星火 ..
发布时间:2016-05-22 16:34:52 Java开发

斯卡拉星火流FILESTREAM

类似这个问题我试图使用 FILESTREAM ,但接收关于类型参数编译时错误。我试图使用 org.apache.mahout.text.wikipedia.XmlInputFormat 按提供亨利马乌-例子摄取XML数据我的的InputFormat 键入。 VAL FILESTREAM = ssc.fileStream [LongWritable,文本,XmlInputFormat](WATC ..
发布时间:2016-05-22 16:34:45 其他开发

卡夫卡星火批量涌入单个文件

我从卡夫卡使用批处理流(maxRatePerPartition 10.000)数据流。因此,在每批我处理10.000卡夫卡的消息。 在这个批处理我通过创建一个数据框出RDD的处理每封邮件。处理之后,我每个处理的记录保存到使用相同的文件:dataFrame.write.mode(SaveMode.append)。 所以其附加的所有邮件到同一个文件。 这是确定的,只要它是一个批次运行中运行。但在 ..
发布时间:2016-05-22 16:33:24 其他开发

。wordCounts.dstream()saveAsTextFiles(QUOT;本地文件系统路径"," TXT");不写入文件

我想写JavaPairRDD到本地系统文件。低于code: JavaPairDStream<字符串,整数> wordCounts = words.mapToPair( 新PairFunction<字符串,字符串,整数>(){ @覆盖 公共Tuple2<字符串,整数>调用(String s)将{ 返回新Tuple2<字符串 ..

如何处理输入记录在一批次的子集,即,在3秒间歇时间的第一秒?

如果我设置秒(1)在的StreamingContext 批处理时间,像这样的: VAL SSC =新的StreamingContext(SC,秒(1)) 3秒接收数据的3秒,但我只需要数据的第一秒,我可以丢弃在未来2秒内的数据。所以,我可以花3秒钟时间来处理数据,只有第一第二? 解决方案 如果您跟踪柜台,比如像下面您可以通过 updateStateByKey 做到这一点: 进口org ..
发布时间:2016-05-22 16:31:35 其他开发

火花流update_state_by_keys数组聚集

我输入线像下面 t1时,文件1,1,1,1 t1时,文件1,1,2,3 T1,文件2,2,2,2,2 t2时,文件1,5,5,5 t2时,文件2,1,1,2,2 和像下面的输出行这是一个垂直的另外的相应数字。 文件1:[1+,1 + 2 + 5,1 + 3 + 5] 文件2:[2 + 1,2 + 1,2 + 2,2 + 2] 目前的数据汇总逻辑正在批量区间,但它不维护状态。所以, ..
发布时间:2016-05-22 16:31:01 其他开发

从卡夫卡的火花得到消息的主题

在我们的火花流工作,我们读卡夫卡流的消息。 对于这一点,我们使用它返回 JavaPairInputDStreamfrom 。的 KafkaUtils.createDirectStream API 该消息从卡夫卡读取(从三个主题 - 为test1,test2的,TEST3)以下列方式: 私有静态最后弦乐TOPICS =“TEST1,TEST2,TEST3” HashSet的<串GT; t ..
发布时间:2016-05-22 16:30:05 其他开发

在火花流如何重新加载在n批次RDD查找非流

假设我有做很多的步骤,然后在最后的微批次看的或加入到ploaded RDD一个$ P $的流媒体内容。我必须刷新ploaded RDD每12小时即$ P $。我怎样才能做到这一点。什么我做这并不涉及到流上下文不重播我的理解,我怎么得到这个所谓的形式流RDD之一。我需要做只有一个呼叫非物质流DSTREAM多少分区有 解决方案 这是通过重新创建外部RDD它需要重新加载时间可能。它需要定义一个可 ..
发布时间:2016-05-22 16:29:59 其他开发

不可序列的异常整合星火SQL和星火流时

这是我的源$ C ​​$ c其中在林从服务器端,从而不断产生数据流得到了一些数据。然后每个RDD,我申请了SQL架构,一旦创建这个表我试着去选择从这个DSTREAM东西。 列表<串GT;男性=新的ArrayList<串GT;(); JavaDStream<串GT;数据= streamingContext.socketTextStream(“localhost”的,(口) ..
发布时间:2016-05-22 16:29:20 Java开发