apache-spark-1.4相关内容
我的 ElasticSearch 集群中有一些与销售相关的 JSON 数据,我想使用 Spark Streaming(使用 Spark 1.4.1)通过 Kafka 从我的电子商务网站动态聚合传入的销售事件,以获取当前视图用户的总销售额(就收入和产品而言). 从我阅读的文档中我不太清楚的是如何在 Spark 应用程序启动时从 ElasticSearch 加载历史数据,并计算例如每个用户的总收
..
我正在尝试有效地连接两个 DataFrame,其中一个较大,第二个较小. 有没有办法避免所有这些洗牌?我无法设置 autoBroadCastJoinThreshold,因为它只支持整数 - 我试图广播的表比整数字节数略大. 有没有办法强制广播忽略这个变量? 解决方案 Broadcast Hash Joins(类似于 Mapreduce 中的 map side join 或 ma
..
我正在尝试有效地连接两个 DataFrame,其中一个较大,第二个较小. 有没有办法避免所有这些洗牌?我无法设置 autoBroadCastJoinThreshold,因为它只支持整数 - 我试图广播的表比整数字节略大. 有没有办法强制广播忽略这个变量? 解决方案 Broadcast Hash Joins(类似于 Mapreduce 中的 map side join 或 map
..
我的 ElasticSearch 集群中有一些与销售相关的 JSON 数据,我想使用 Spark Streaming(使用 Spark 1.4.1)通过 Kafka 从我的电子商务网站动态聚合传入的销售事件,以获取当前视图用户的总销售额(就收入和产品而言). 从我阅读的文档中我不太清楚的是如何在 Spark 应用程序启动时从 ElasticSearch 加载历史数据,并计算例如每个用户的总收
..
我有一段代码创建一个DataFrame并将其持久保存到S3.下面创建了一个由1000个行和100列组成的DataFrame,由math.Random填充.我在具有4个r3.8xlarge工作节点的群集上运行此程序,并配置了大量内存.我尝试了最大数量的执行器,每个节点一个执行器. // create some random data for performance and scalabilit
..
我正在使用Spark 1.4.1. 我可以毫无问题地使用spark-submit. 但是当我运行~/spark/bin/spark-shell 我收到以下错误 我已经配置了SPARK_HOME和JAVA_HOME. 但是,使用Spark 1.2就可以了 15/10/08 02:40:30 WARN NativeCodeLoader: Unable to load native-hado
..
我是Spark的初学者,并尝试遵循此处的有关如何使用cmd从Python初始化Spark shell的说明:但是当我在cmd中运行以下命令时: C:\Users\Alex\Desktop\spark-1.4.1-bin-hadoop2.4\>c:\Python27\python bin\pyspark 然后我收到以下错误消息: File "bin\pyspark", line 2
..
我正在尝试有效地连接两个DataFrame,其中一个较大,而第二个较小. 有没有办法避免所有这些改组?我不能设置autoBroadCastJoinThreshold,因为它仅支持整数-并且我要广播的表略大于整数字节数. 有没有办法强制广播忽略此变量? 解决方案 广播哈希联接(类似于Mapreduce中的 地图侧联接 或地图侧组合): 在SparkSQL中,您可以通过调用q
..
通过bdutil,我能找到tar文件的最新版本是1.3.1火花: GS://spark-dist/spark-1.3.1-bin-hadoop2.6.tgz 有在星火1.4了一些新的数据帧的功能,我想用。任何机会星火1.4图像可供bdutil,或任何解决方法吗? 更新: 继安格斯·戴维斯建议,我下载并指出火花1.4.1彬hadoop2.6.tgz,部署进展顺利;但是,调用SqlContex
..
我是新来的Apache火花(1.4.1版)。我写了一个小code阅读文本文件,并存储在RDD其数据。 有没有办法通过它我可以得到的数据的大小RDD。 这是我的code: 进口org.apache.spark.SparkContext 进口org.apache.spark.rdd.RDD 进口org.apache.spark.util.SizeEstimator 进口org.apache.sp
..
我有一些销售相关的JSON数据在我的ElasticSearch集群,我想用星火流(使用星火1.4.1),以动态地从通过卡夫卡我的电子商务网站,总计流入促销活动有一个当前视图用户的销售总额(营业收入和产品方面)。 什么是不是真的从我阅读文档清楚,我是我怎么能在星火应用程序的启动加载从ElasticSearch历史数据,并计算例如每用户的整体收入(基于历史和从卡夫卡传入销售)。 我有以下的(工作)
..
我有一个SparkSQL数据帧。 在此数据中的一些条目是空的,但他们不喜欢的行为NULL或不适用。我怎么能删除?有任何想法吗? 在R I可以很容易地将其删除,但它sparkR说,没有与S4系统/方法的问题。 感谢。 解决方案 SparkR列提供的有用的方法包括的一长串的isNull 和 isNotNull : > people_local&下; - data.frame(
..