spark-streaming相关内容
下面简单星火计划运行的精绝,如果我为“SBT运行”运行。但是,如果我运行, 1)为“火花submit.cmd eventfilter组装-0.1-SNAPSHOT.jar ”。其中使用“SBT集结号”与“提供%”与“流和SQL”的SBT规则创建的罐子。 2)“火花submit.cmd --jar播放json_2.10-2.3.10.jar seventfilter_2.10-0.1-SNAPS
..
我已经做执行日常计算的。下面是一些伪code。 “NEWUSER”可称为第一激活用户。 //从HBase的或其他地方今天的日志 VAL日志= getRddFromHbase(todayDate) //计算活动的用户 VAL activeUser = log.map(行=>((line.uid,line.appId),线).reduceByKey(distinctStrategyMeth
..
我提交相同的瓶子用本地模式和mesos集群模式下运行。并发现一些完全相同的阶段,本地模式只需要几毫秒才能完成但是集群模式将采取秒!上市 是一个例子:659期 本机模式: 659 从数据流作业[输出操作1,批量时间十七点45分50秒] 地图在KafkaHelper.scala:35 +细节 2016年3月22日17时46分31秒11毫秒 mesos群集模式: 659 从数据流作业[
..
有关的数据流 DSTREAM [(双人间,双人间)] ,我怎么估计均方根误差?看到我下面code。行的Math.sqrt(summse)是我有一个问题(在code不编译): 高清calculateRMSE(输出:DSTREAM [(双人间,双人间)],N:DSTREAM [龙]):双= { VAL summse = {output.foreachRDD RDD = GT;
..
我已经开发出使用SparkSQL和SparkStreaming一个独立的火花Scala的应用程序。 这工作正常在Eclipse被配置为火花。 我在Maven的新手。 要打包使用maven这个应用程序,我也跟着下面的教程 的http://ryancompton.net/2014/05/19/sample-pomxml-to-build-scala--jar-with-dependencies
..
我目前正在与Apache的火花流工作。我想知道如何检测连接是否丢失或无法与外部数据源,所以我们可能会停止流并重新启动连接到数据源。 在此先感谢您的帮助。 解决方案 侦听器添加到您的接收器,当接收器已经停止停止流上下文。 例如: streamContext.addStreamingListener(新StreamingListener(){ @覆盖 公共
..
我有一个使用火花流一个项目,我与'火花提交“运行它,但我打这个错误: 15/01/14 10点34分18秒错误ReceiverTracker:注销接收器,流0:开始接收0错误 - java.lang.AbstractMethodError 在org.apache.spark.Logging $ class.log(Logging.scala:52) 在org.apache.s
..
我想它的元组的火花dstream..each增加最大和最小每个RDD。我写了下面code,但不知道如何传递参数的最小值和最大值。 任何人都可以提出一个办法做到这一点转型? 我试过如下: JavaPairDStream< Tuple2<长,整数>中Tuple3<为Integer,Long,龙>> sortedtsStream = transformedMa
..
我在星火驱动模块听着卡夫卡的队列,并根据队列的我需要修改广播变量(或关闭)的内容的内容。在这个例子中,这可能是一个字符串。 例如,如果字符串“变”到达队列中,我需要更新的每个节点广播变量。 我想看到一个模式来做到这一点是干净的,高性能的,或者至少收到我在哪里可以找到一些材料,以更好地了解如何在Spark集群传播的修改输入。 解决方案 广播变量确实传播变量或全封闭的火花集群,使用点对点协
..
我的实时数据流进入的火花,我想这样做在该时间序列数据移动平均预测。有什么办法来实现这个使用的火花在Java中? 我已经提到: https://gist.github.com/samklr/27411098f04fc46dcd05 / 的修订 和 阿帕奇星火移动平均 但是这两个codeS都写在斯卡拉。因为我不熟悉的斯卡拉,我无法判断我是否会觉得有用,甚至code转换成Java。 是否有星火
..
类似这个问题我试图使用 FILESTREAM ,但接收关于类型参数编译时错误。我试图使用 org.apache.mahout.text.wikipedia.XmlInputFormat 按提供亨利马乌-例子摄取XML数据我的的InputFormat 键入。 VAL FILESTREAM = ssc.fileStream [LongWritable,文本,XmlInputFormat](WATC
..
我从卡夫卡使用批处理流(maxRatePerPartition 10.000)数据流。因此,在每批我处理10.000卡夫卡的消息。 在这个批处理我通过创建一个数据框出RDD的处理每封邮件。处理之后,我每个处理的记录保存到使用相同的文件:dataFrame.write.mode(SaveMode.append)。 所以其附加的所有邮件到同一个文件。 这是确定的,只要它是一个批次运行中运行。但在
..
我想写JavaPairRDD到本地系统文件。低于code: JavaPairDStream<字符串,整数> wordCounts = words.mapToPair( 新PairFunction<字符串,字符串,整数>(){ @覆盖 公共Tuple2<字符串,整数>调用(String s)将{ 返回新Tuple2<字符串
..
如果我设置秒(1)在的StreamingContext 批处理时间,像这样的: VAL SSC =新的StreamingContext(SC,秒(1)) 3秒接收数据的3秒,但我只需要数据的第一秒,我可以丢弃在未来2秒内的数据。所以,我可以花3秒钟时间来处理数据,只有第一第二? 解决方案 如果您跟踪柜台,比如像下面您可以通过 updateStateByKey 做到这一点: 进口org
..
我有一个火花工作流从卡夫卡读取和写入再次向Postrges之前确实在Postgres的现有表一些比较。这是什么样子: VAL消息= KafkaUtils.createStream(...)。图(_._ 2)message.foreachRDD(RDD = GT; { 如果(!rdd.isEmpty){ VAL kafkaDF = sqlContext.read.json(RDD)
..
我输入线像下面 t1时,文件1,1,1,1 t1时,文件1,1,2,3 T1,文件2,2,2,2,2 t2时,文件1,5,5,5 t2时,文件2,1,1,2,2 和像下面的输出行这是一个垂直的另外的相应数字。 文件1:[1+,1 + 2 + 5,1 + 3 + 5] 文件2:[2 + 1,2 + 1,2 + 2,2 + 2] 目前的数据汇总逻辑正在批量区间,但它不维护状态。所以,
..
在我们的火花流工作,我们读卡夫卡流的消息。 对于这一点,我们使用它返回 JavaPairInputDStreamfrom 。的 KafkaUtils.createDirectStream API 该消息从卡夫卡读取(从三个主题 - 为test1,test2的,TEST3)以下列方式: 私有静态最后弦乐TOPICS =“TEST1,TEST2,TEST3” HashSet的<串GT; t
..
假设我有做很多的步骤,然后在最后的微批次看的或加入到ploaded RDD一个$ P $的流媒体内容。我必须刷新ploaded RDD每12小时即$ P $。我怎样才能做到这一点。什么我做这并不涉及到流上下文不重播我的理解,我怎么得到这个所谓的形式流RDD之一。我需要做只有一个呼叫非物质流DSTREAM多少分区有 解决方案 这是通过重新创建外部RDD它需要重新加载时间可能。它需要定义一个可
..
这是我的源$ C $ c其中在林从服务器端,从而不断产生数据流得到了一些数据。然后每个RDD,我申请了SQL架构,一旦创建这个表我试着去选择从这个DSTREAM东西。 列表<串GT;男性=新的ArrayList<串GT;(); JavaDStream<串GT;数据= streamingContext.socketTextStream(“localhost”的,(口)
..
我试图运行HDP 2.2沙盒一个简单的流媒体工作,但面对java.lang.NoSuchMethodError错误。我能够没有问题,这台机器上运行SparkPi例子。 以下是版本我使用 - < kafka.version> 0.8.2.0< /kafka.version> < twitter4j.version> 4.0.2< /twitter4j.
..