spark-streaming相关内容
我刚刚从 HTTP添加的示例项目到我的笔记本飞艇://飞艇项目.ORG /文档/教程/ tutorial.html (节“教程与流数据”)。这个问题我现在已经是应用程序似乎只对本地工作。如果我改变了星火间preTER从“本地[*]”,以设置“主”,“火花://主:7077”的应用程序不会当我做同样的SQL语句带来任何结果了。难道我做错了什么?我已经重新启动了齐柏林间preTER,也是整个飞艇守护进
..
我有2个节点DSE火花集群。 我安装之后的一个DSE分析火花节点无法启动。如果没有火花启动就好了。但在我的其他节点的火花被启用,它可以启动和工作得很好。这是为什么,我该如何解决呢?谢谢你。 这是我的错误日志: 错误[主] 20 2016年2月27日:35:43353 CassandraDaemon.java:294 - 致命初始化过程中的异常 org.apache.cassandr
..
我有一些销售相关的JSON数据在我的ElasticSearch集群,我想用星火流(使用星火1.4.1),以动态地从通过卡夫卡我的电子商务网站,总计流入促销活动有一个当前视图用户的销售总额(营业收入和产品方面)。 什么是不是真的从我阅读文档清楚,我是我怎么能在星火应用程序的启动加载从ElasticSearch历史数据,并计算例如每用户的整体收入(基于历史和从卡夫卡传入销售)。 我有以下的(工作)
..
我们期待实现使用星火流(带水槽)一个用例和Spark与窗口,使我们能够在一组数据进行CEP计算SQL。(为请参照下面的数据捕获和使用)。我们的想法是使用SQL执行其中一些符合某些条件下采取行动。 。执行基于每个传入事件批处理查询似乎非常慢(如它的进展)。 下面慢手段说我已经配置了600秒的窗口大小和20秒的间隔批。 (抽带每两每秒1输入速度的数据),因此,在10分钟后的时间在那里进来的投入将不断
..
我用 卡桑德拉v2.1.12 星火V1.4.1 斯卡拉2.10 和Cassandra是监听 rpc_address:127.0.1.1 rpc_port:9160 例如,连接卡夫卡和火花流,一边听每4秒卡夫卡,我有以下的火花工作 SC = SparkContext(CONF = CONF) 流=的StreamingContext(SC,4) MAP1 = {'TOPIC_NAME':1}
..
我想一个DSTREAM转换为数组,列表等这样我就可以翻译为JSON和服务于它的端点。我使用apache的火花,注射Twitter数据。我如何preform在DSTREAM 状态此操作?我似乎无法得到任何工作比其它打印()。 进口org.apache.spark._ 进口org.apache.spark.SparkContext._ 进口org.apache.spark.streaming._ 进
..
我开始使用星火流处理实时数据馈送我得到。我的情况是我必须用“同ActorHelper”一个演员阿卡接收器的话,我有我的工作星火做一些映射和转换,然后我想将结果发送给另一个演员。 我的问题是最后一部分。当试图发送到另一个演员Spark是引发异常: 15/02/20 16时43分16秒WARN TaskSetManager:在第一阶段2.0迷失任务0.0(TID 2,本地主机):jav
..
我们正在将一个大型企业的当前数据架构的开始阶段,我目前正在建设一个Spark流ETL架构中,我们将我们所有的源连接到目的地(源/目标可能是卡夫卡的话题,弗卢姆,HDFS等)通过变换。这看起来是这样的: SparkStreamingEtlManager.addEtl(资料来源,转换*,目的地) SparkStreamingEtlManager.streamEtl() streamingCont
..
我已经成功地用Java构建一个非常简单的星火流媒体应用程序,是基于
..
我工作的一个斯卡拉(2.11)/火花(1.6.1)流的项目并使用 mapWithState()来跟踪数据可见,从previous批次。 的状态分布在20个分区的多个节点上,用创建StateSpec.function(trackStateFunc _)。numPartitions(20)。在这种状态下,我们有映射到设置高达160.000〜项,其中增长在整个应用程序只有几个键(〜100)。整个状
..
我正在开发一个Spark应用程序,我已经习惯了Spring作为一个依赖注入框架。现在,我坚持了这个问题,该处理部分使用了Spring的@Autowired功能,但它是序列化和反序列化星火 所以下面code使我陷入麻烦: 处理器处理器= ...; //这是一个春天构造的对象 //并使得所有的麻烦 JavaRDD<&事务处理GT; RDD
..
将数据写入到从火花卡桑德拉,数据没有得到写入。结果 闪回的是:结果 我做了卡夫卡sparkStreaming-卡桑德拉整合。结果 我读卡夫卡的消息,并试图把它放在一个卡桑德拉表 CREATE TABLE TEST_TABLE(INT键PRIMARY KEY,价值TEXT)。结果 卡夫卡的火花流运行很酷,但是火花卡桑德拉,有一些问题...数据没有得到写入表。结果 我能够创建卡桑德拉的连接,
..
我很困惑,为什么我只能在火花网页UI页面(8080)去看One KafkaReceiver, 但是我确实有卡夫卡10个分区,我用火花集群10个核心,也是我的code作为在python如下: KVS = KafkaUtils.createStream(SSC,zkQuorum,“火花流媒体消费”,{话题:10}) 我猜想KafkaReceivers数量应该是10而不是1。 我很困惑。
..
我有一个火花流应用程序,它看起来是这样的: VAL消息= KafkaUtils.createStream(...)。图(_._ 2)message.foreachRDD(RDD = GT; { 如果(!rdd.isEmpty){ VAL kafkaDF = sqlContext.read.json(RDD) kafkaDF.foreachPartition( 我=
..
我想创建一个系统,我可以实时读取日志,使用Apache的火花来处理它。我很困惑,如果我要使用类似卡夫卡或水槽通过日志火花流或我应该通过使用套接字的日志。我已经通过示例程序火花流文档 - 星火流例子了。不过,我会很感激,如果有人能指导我更好的方式来传递日志火花流。同类新的草皮给我。 解决方案 Apache的水槽可以帮助实时读取日志。 水槽提供日志收集和运输到星火流来分析所需的信息的应用
..
我有一个星火流/ DSTREAM应用如这个: //函数来创建和设置一个新的StreamingContext 高清functionToCreateContext()的StreamingContext = { VAL SSC =新的StreamingContext(...)//新的上下文 VAL线= ssc.socketTextStream(...)//创建DStreams ...
..
威尔 rdd1.join(RDD2)引发洗牌发生,如果 RDD1集和 RDD2 具有相同的分区? 解决方案 没有。如果两个RDDS具有相同的分区中,加入不会导致洗牌。你可以看到这个
..
我想创建一个控制台多个SparkContext。据
..
在我创建一个jar文件 我试图运行火花提交。当我在我的机器上本地运行它,它工作正常,但当部署到Amazon EC2上返回下面的错误。 根@ IP-172-31-47-217斌] $ ./spark-submit --master本地[2] --class main.java.Streamer〜/ streaming-项目-1.0-JAR与 - dependencies.jar 异常线程“ma
..
星火RDD的在一成不变的,容错和灵活的方式构成。 RDDS是否满足所有场景永恒?或者是有任何情况下,无论是在流或Core,其中RDD可能无法满足不变性。 解决方案 这要看你是什么意思时,你说说 RDD 。严格地说 RDD 仅有谱系的描述只存在在驾驶员和它不提供可用于改动其谱系的任何方法 当数据被处理,我们不能再谈论有关RDDS但尽管如此任务数据是使用不可变的数据结构(暴露的 scala
..