spark-streaming 第34页 - IT屋-程序员软件开发技术分享社区

星火流投掷java.net.ConnectException

下面简单星火计划运行的精绝，如果我为“SBT运行”运行。但是，如果我运行， 1）为“火花submit.cmd eventfilter组装-0.1-SNAPSHOT.jar ”。其中使用“SBT集结号”与“提供％”与“流和SQL”的SBT规则创建的罐子。 2）“火花submit.cmd --jar播放json_2.10-2.3.10.jar seventfilter_2.10-0.1-SNAPS ..

发布时间：2016-05-22 16:43:37 scala apache-spark spark-streaming 其他开发

如何通过使用火花流来算，从流新元素

我已经做执行日常计算的。下面是一些伪code。 “NEWUSER”可称为第一激活用户。 //从HBase的或其他地方今天的日志 VAL日志= getRddFromHbase（todayDate） //计算活动的用户 VAL activeUser = log.map（行=＆GT;（（line.uid，line.appId），线）.reduceByKey（distinctStrategyMeth ..

发布时间：2016-05-22 16:42:32 scala apache-spark spark-streaming 其他开发

星火mesos集群模式比本地模式慢

我提交相同的瓶子用本地模式和mesos集群模式下运行。并发现一些完全相同的阶段，本地模式只需要几毫秒才能完成但是集群模式将采取秒！上市是一个例子：659期本机模式： 659 从数据流作业[输出操作1，批量时间十七点45分50秒] 地图在KafkaHelper.scala：35 +细节 2016年3月22日17时46分31秒11毫秒 mesos群集模式： 659 从数据流作业[ ..

发布时间：2016-05-22 16:40:48 scala apache-spark spark-streaming mesos 其他开发

如何使用的Math.sqrt为DSTREAM [（双人间，双人间）]

有关的数据流 DSTREAM [（双人间，双人间）] ，我怎么估计均方根误差？看到我下面code。行的Math.sqrt（summse）是我有一个问题（在code不编译）：高清calculateRMSE（输出：DSTREAM [（双人间，双人间）]，N：DSTREAM [龙]）：双= { VAL summse = {output.foreachRDD RDD = GT; ..

发布时间：2016-05-22 16:39:46 scala apache-spark spark-streaming 其他开发

如何包装火花斯卡拉应用

我已经开发出使用SparkSQL和SparkStreaming一个独立的火花Scala的应用程序。这工作正常在Eclipse被配置为火花。我在Maven的新手。要打包使用maven这个应用程序，我也跟着下面的教程的http://ryancompton.net/2014/05/19/sample-pomxml-to-build-scala--jar-with-dependencies ..

发布时间：2016-05-22 16:37:10 scala maven apache-spark spark-streaming 其他开发

检测连接火花失去流

我目前正在与Apache的火花流工作。我想知道如何检测连接是否丢失或无法与外部数据源，所以我们可能会停止流并重新启动连接到数据源。在此先感谢您的帮助。解决方案侦听器添加到您的接收器，当接收器已经停止停止流上下文。例如： streamContext.addStreamingListener（新StreamingListener（）{ @覆盖公共 ..

发布时间：2016-05-22 16:37:02 scala apache-spark spark-streaming 其他开发

星火流StreamingContext.start（） - 错误启动接收器0

我有一个使用火花流一个项目，我与'火花提交“运行它，但我打这个错误： 15/01/14 10点34分18秒错误ReceiverTracker：注销接收器，流0：开始接收0错误 - java.lang.AbstractMethodError 在org.apache.spark.Logging $ class.log（Logging.scala：52）在org.apache.s ..

发布时间：2016-05-22 16:36:46 scala apache-spark apache-kafka spark-streaming 其他开发

添加最大值和最小值火花流JAVA？

我想它的元组的火花dstream..each增加最大和最小每个RDD。我写了下面code，但不知道如何传递参数的最小值和最大值。任何人都可以提出一个办法做到这一点转型？我试过如下： JavaPairDStream＆LT; Tuple2＆LT;长，整数＆gt;中Tuple3＆LT;为Integer，Long，龙＆GT;＆GT; sortedtsStream = transformedMa ..

发布时间：2016-05-22 16:35:46 java apache-spark spark-streaming Java开发

星火流：如何更新广播变量传播到整个集群？

我在星火驱动模块听着卡夫卡的队列，并根据队列的我需要修改广播变量（或关闭）的内容的内容。在这个例子中，这可能是一个字符串。例如，如果字符串“变”到达队列中，我需要更新的每个节点广播变量。我想看到一个模式来做到这一点是干净的，高性能的，或者至少收到我在哪里可以找到一些材料，以更好地了解如何在Spark集群传播的修改输入。解决方案广播变量确实传播变量或全封闭的火花集群，使用点对点协 ..

发布时间：2016-05-22 16:35:00 scala apache-spark spark-streaming 其他开发

在星火Java的移动平均线

我的实时数据流进入的火花，我想这样做在该时间序列数据移动平均预测。有什么办法来实现这个使用的火花在Java中？我已经提到： https://gist.github.com/samklr/27411098f04fc46dcd05 / 的修订和阿帕奇星火移动平均但是这两个codeS都写在斯卡拉。因为我不熟悉的斯卡拉，我无法判断我是否会觉得有用，甚至code转换成Java。是否有星火 ..

发布时间：2016-05-22 16:34:52 java scala apache-spark spark-streaming Java开发

斯卡拉星火流FILESTREAM

类似这个问题我试图使用 FILESTREAM ，但接收关于类型参数编译时错误。我试图使用 org.apache.mahout.text.wikipedia.XmlInputFormat 按提供亨利马乌-例子摄取XML数据我的的InputFormat 键入。 VAL FILESTREAM = ssc.fileStream [LongWritable，文本，XmlInputFormat]（WATC ..

发布时间：2016-05-22 16:34:45 scala apache-spark spark-streaming 其他开发

卡夫卡星火批量涌入单个文件

我从卡夫卡使用批处理流（maxRatePerPartition 10.000）数据流。因此，在每批我处理10.000卡夫卡的消息。在这个批处理我通过创建一个数据框出RDD的处理每封邮件。处理之后，我每个处理的记录保存到使用相同的文件：dataFrame.write.mode（SaveMode.append）。所以其附加的所有邮件到同一个文件。这是确定的，只要它是一个批次运行中运行。但在 ..

发布时间：2016-05-22 16:33:24 hadoop apache-spark apache-kafka spark-streaming 其他开发

。wordCounts.dstream（）saveAsTextFiles（QUOT;本地文件系统路径＆QUOT;，＆QUOT; TXT＆QUOT;）;不写入文件

我想写JavaPairRDD到本地系统文件。低于code： JavaPairDStream＆LT;字符串，整数＆GT; wordCounts = words.mapToPair（新PairFunction＆LT;字符串，字符串，整数＆GT;（）{ @覆盖公共Tuple2＆LT;字符串，整数＆GT;调用（String s）将{ 返回新Tuple2＆LT;字符串 ..

发布时间：2016-05-22 16:32:38 apache-spark streaming pyspark spark-streaming hadoop-streaming 其他开发

如何处理输入记录在一批次的子集，即，在3秒间歇时间的第一秒？

如果我设置秒（1）在的StreamingContext 批处理时间，像这样的： VAL SSC =新的StreamingContext（SC，秒（1）） 3秒接收数据的3秒，但我只需要数据的第一秒，我可以丢弃在未来2秒内的数据。所以，我可以花3秒钟时间来处理数据，只有第一第二？解决方案如果您跟踪柜台，比如像下面您可以通过 updateStateByKey 做到这一点：进口org ..

发布时间：2016-05-22 16:31:35 apache-spark spark-streaming 其他开发

星火流：NullPointerException异常里面foreachPartition

我有一个火花工作流从卡夫卡读取和写入再次向Postrges之前确实在Postgres的现有表一些比较。这是什么样子： VAL消息= KafkaUtils.createStream（...）。图（_._ 2）message.foreachRDD（RDD = GT; { 如果（！rdd.isEmpty）{ VAL kafkaDF = sqlContext.read.json（RDD） ..

发布时间：2016-05-22 16:31:21 scala apache-spark spark-streaming 其他开发

火花流update_state_by_keys数组聚集

我输入线像下面 t1时，文件1，1，1，1 t1时，文件1，1，2，3 T1，文件2，2，2，2，2 t2时，文件1，5，5，5 t2时，文件2，1，1，2，2 和像下面的输出行这是一个垂直的另外的相应数字。文件1：[1+，1 + 2 + 5,1 + 3 + 5] 文件2：[2 + 1,2 + 1,2 + 2,2 + 2] 目前的数据汇总逻辑正在批量区间，但它不维护状态。所以， ..

发布时间：2016-05-22 16:31:01 apache-spark spark-streaming 其他开发

从卡夫卡的火花得到消息的主题

在我们的火花流工作，我们读卡夫卡流的消息。对于这一点，我们使用它返回 JavaPairInputDStreamfrom 。的 KafkaUtils.createDirectStream API 该消息从卡夫卡读取（从三个主题 - 为test1，test2的，TEST3）以下列方式：私有静态最后弦乐TOPICS =“TEST1，TEST2，TEST3” HashSet的＆LT;串GT; t ..

发布时间：2016-05-22 16:30:05 apache-spark apache-kafka spark-streaming 其他开发

在火花流如何重新加载在n批次RDD查找非流

假设我有做很多的步骤，然后在最后的微批次看的或加入到ploaded RDD一个$ P $的流媒体内容。我必须刷新ploaded RDD每12小时即$ P $。我怎样才能做到这一点。什么我做这并不涉及到流上下文不重播我的理解，我怎么得到这个所谓的形式流RDD之一。我需要做只有一个呼叫非物质流DSTREAM多少分区有解决方案这是通过重新创建外部RDD它需要重新加载时间可能。它需要定义一个可 ..

发布时间：2016-05-22 16:29:59 apache-spark spark-streaming 其他开发

不可序列的异常整合星火SQL和星火流时

这是我的源$ C $ c其中在林从服务器端，从而不断产生数据流得到了一些数据。然后每个RDD，我申请了SQL架构，一旦创建这个表我试着去选择从这个DSTREAM东西。列表＆LT;串GT;男性=新的ArrayList＆LT;串GT;（）; JavaDStream＆LT;串GT;数据= streamingContext.socketTextStream（“localhost”的，（口） ..

发布时间：2016-05-22 16:29:20 java apache-spark spark-streaming apache-spark-sql Java开发

的NoSuchMethodError而HDP 2.2星火运行工作流

我试图运行HDP 2.2沙盒一个简单的流媒体工作，但面对java.lang.NoSuchMethodError错误。我能够没有问题，这台机器上运行SparkPi例子。以下是版本我使用 - ＆LT; kafka.version＆GT; 0.8.2.0＆LT; /kafka.version> ＆LT; twitter4j.version＆GT; 4.0.2＆LT; /twitter4j. ..

发布时间：2016-05-22 16:28:48 scala apache-spark hortonworks-data-platform spark-streaming 其他开发

spark-streaming相关内容