apache-spark-1.4相关内容

如何在启动 Spark Streaming 进程时加载历史数据,并计算运行聚合

我的 ElasticSearch 集群中有一些与销售相关的 JSON 数据,我想使用 Spark Streaming(使用 Spark 1.4.1)通过 Kafka 从我的电子商务网站动态聚合传入的销售事件,以获取当前视图用户的总销售额(就收入和产品而言). 从我阅读的文档中我不太清楚的是如何在 Spark 应用程序启动时从 ElasticSearch 加载历史数据,并计算例如每个用户的总收 ..

DataFrame join 优化 - Broadcast Hash Join

我正在尝试有效地连接两个 DataFrame,其中一个较大,第二个较小. 有没有办法避免所有这些洗牌?我无法设置 autoBroadCastJoinThreshold,因为它只支持整数 - 我试图广播的表比整数字节数略大. 有没有办法强制广播忽略这个变量? 解决方案 Broadcast Hash Joins(类似于 Mapreduce 中的 map side join 或 ma ..

DataFrame join 优化 - Broadcast Hash Join

我正在尝试有效地连接两个 DataFrame,其中一个较大,第二个较小. 有没有办法避免所有这些洗牌?我无法设置 autoBroadCastJoinThreshold,因为它只支持整数 - 我试图广播的表比整数字节略大. 有没有办法强制广播忽略这个变量? 解决方案 Broadcast Hash Joins(类似于 Mapreduce 中的 map side join 或 map ..

如何在启动 Spark Streaming 进程时加载历史数据,并计算运行聚合

我的 ElasticSearch 集群中有一些与销售相关的 JSON 数据,我想使用 Spark Streaming(使用 Spark 1.4.1)通过 Kafka 从我的电子商务网站动态聚合传入的销售事件,以获取当前视图用户的总销售额(就收入和产品而言). 从我阅读的文档中我不太清楚的是如何在 Spark 应用程序启动时从 ElasticSearch 加载历史数据,并计算例如每个用户的总收 ..

从EMR Spark到S3的saveAsParquetFile缓慢或不完整

我有一段代码创建一个DataFrame并将其持久保存到S3.下面创建了一个由1000个行和100列组成的DataFrame,由math.Random填充.我在具有4个r3.8xlarge工作节点的群集上运行此程序,并配置了大量内存.我尝试了最大数量的执行器,每个节点一个执行器. // create some random data for performance and scalabilit ..

无法启动火花壳

我正在使用Spark 1.4.1. 我可以毫无问题地使用spark-submit. 但是当我运行~/spark/bin/spark-shell 我收到以下错误 我已经配置了SPARK_HOME和JAVA_HOME. 但是,使用Spark 1.2就可以了 15/10/08 02:40:30 WARN NativeCodeLoader: Unable to load native-hado ..
发布时间:2020-07-29 20:04:40 其他开发

DataFrame联接优化-广播哈希联接

我正在尝试有效地连接两个DataFrame,其中一个较大,而第二个较小. 有没有办法避免所有这些改组?我不能设置autoBroadCastJoinThreshold,因为它仅支持整数-并且我要广播的表略大于整数字节数. 有没有办法强制广播忽略此变量? 解决方案 广播哈希联接(类似于Mapreduce中的 地图侧联接 或地图侧组合): 在SparkSQL中,您可以通过调用q ..

星火1.4图像谷歌云?

通过bdutil,我能找到tar文件的最新版本是1.3.1火花: GS://spark-dist/spark-1.3.1-bin-hadoop2.6.tgz 有在星火1.4了一些新的数据帧的功能,我想用。任何机会星火1.4图像可供bdutil,或任何解决方法吗? 更新: 继安格斯·戴维斯建议,我下载并指出火花1.4.1彬hadoop2.6.tgz,部署进展顺利;但是,调用SqlContex ..
发布时间:2016-05-22 16:46:40 其他开发

如何启动星火流过程时加载历史数据,并计算运行聚合

我有一些销售相关的JSON数据在我的ElasticSearch集群,我想用星火流(使用星火1.4.1),以动态地从通过卡夫卡我的电子商务网站,总计流入促销活动有一个当前视图用户的销售总额(营业收入和产品方面)。 什么是不是真的从我阅读文档清楚,我是我怎么能在星火应用程序的启动加载从ElasticSearch历史数据,并计算例如每用户的整体收入(基于历史和从卡夫卡传入销售)。 我有以下的(工作) ..

如何处理SparkR空条目

我有一个SparkSQL数据帧。 在此数据中的一些条目是空的,但他们不喜欢的行为NULL或不适用。我怎么能删除?有任何想法吗? 在R I可以很容易地将其删除,但它sparkR说,没有与S4系统/方法的问题。 感谢。 解决方案 SparkR列提供的有用的方法包括的一长串的isNull 和 isNotNull : > people_local&下; - data.frame( ..
发布时间:2016-05-22 15:38:12 其他开发