apache-spark-1.4 - IT屋-程序员软件开发技术分享社区

如何在启动 Spark Streaming 进程时加载历史数据，并计算运行聚合

我的 ElasticSearch 集群中有一些与销售相关的 JSON 数据，我想使用 Spark Streaming(使用 Spark 1.4.1)通过 Kafka 从我的电子商务网站动态聚合传入的销售事件，以获取当前视图用户的总销售额(就收入和产品而言). 从我阅读的文档中我不太清楚的是如何在 Spark 应用程序启动时从 ElasticSearch 加载历史数据，并计算例如每个用户的总收 ..

发布时间：2021-11-14 22:43:36 apache-spark apache-kafka spark-streaming apache-spark-sql apache-spark-1.4 其他开发

DataFrame join 优化 - Broadcast Hash Join

我正在尝试有效地连接两个 DataFrame，其中一个较大，第二个较小. 有没有办法避免所有这些洗牌?我无法设置 autoBroadCastJoinThreshold，因为它只支持整数 - 我试图广播的表比整数字节数略大. 有没有办法强制广播忽略这个变量? 解决方案 Broadcast Hash Joins(类似于 Mapreduce 中的 map side join 或 ma ..

发布时间：2021-11-14 21:15:03 apache-spark dataframe apache-spark-sql apache-spark-1.4 其他开发

DataFrame join 优化 - Broadcast Hash Join

我正在尝试有效地连接两个 DataFrame，其中一个较大，第二个较小. 有没有办法避免所有这些洗牌?我无法设置 autoBroadCastJoinThreshold，因为它只支持整数 - 我试图广播的表比整数字节略大. 有没有办法强制广播忽略这个变量? 解决方案 Broadcast Hash Joins(类似于 Mapreduce 中的 map side join 或 map ..

发布时间：2021-11-12 05:25:39 apache-spark dataframe apache-spark-sql apache-spark-1.4 其他开发

如何在启动 Spark Streaming 进程时加载历史数据，并计算运行聚合

我的 ElasticSearch 集群中有一些与销售相关的 JSON 数据，我想使用 Spark Streaming(使用 Spark 1.4.1)通过 Kafka 从我的电子商务网站动态聚合传入的销售事件，以获取当前视图用户的总销售额(就收入和产品而言). 从我阅读的文档中我不太清楚的是如何在 Spark 应用程序启动时从 ElasticSearch 加载历史数据，并计算例如每个用户的总收 ..

发布时间：2021-11-12 02:29:46 apache-spark apache-kafka spark-streaming apache-spark-sql apache-spark-1.4 其他开发

从EMR Spark到S3的saveAsParquetFile缓慢或不完整

我有一段代码创建一个DataFrame并将其持久保存到S3.下面创建了一个由1000个行和100列组成的DataFrame，由math.Random填充.我在具有4个r3.8xlarge工作节点的群集上运行此程序，并配置了大量内存.我尝试了最大数量的执行器，每个节点一个执行器. // create some random data for performance and scalabilit ..

发布时间：2020-07-29 20:04:43 amazon-s3 apache-spark amazon-emr parquet apache-spark-1.4 其他开发

无法启动火花壳

我正在使用Spark 1.4.1. 我可以毫无问题地使用spark-submit. 但是当我运行~/spark/bin/spark-shell 我收到以下错误我已经配置了SPARK_HOME和JAVA_HOME. 但是，使用Spark 1.2就可以了 15/10/08 02:40:30 WARN NativeCodeLoader: Unable to load native-hado ..

发布时间：2020-07-29 20:04:40 apache-spark apache-spark-1.4 其他开发

如何在Windows中使用pyspark启动Spark Shell?

我是Spark的初学者，并尝试遵循此处的有关如何使用cmd从Python初始化Spark shell的说明:但是当我在cmd中运行以下命令时: C:\Users\Alex\Desktop\spark-1.4.1-bin-hadoop2.4\>c:\Python27\python bin\pyspark 然后我收到以下错误消息: File "bin\pyspark", line 2 ..

发布时间：2020-07-29 20:04:37 pyspark apache-spark-1.4 其他开发

DataFrame联接优化-广播哈希联接

我正在尝试有效地连接两个DataFrame，其中一个较大，而第二个较小. 有没有办法避免所有这些改组?我不能设置autoBroadCastJoinThreshold，因为它仅支持整数-并且我要广播的表略大于整数字节数. 有没有办法强制广播忽略此变量? 解决方案广播哈希联接(类似于Mapreduce中的地图侧联接或地图侧组合): 在SparkSQL中，您可以通过调用q ..

发布时间：2020-07-29 20:04:33 apache-spark dataframe apache-spark-sql apache-spark-1.4 其他开发

星火1.4图像谷歌云？

通过bdutil，我能找到tar文件的最新版本是1.3.1火花： GS：//spark-dist/spark-1.3.1-bin-hadoop2.6.tgz 有在星火1.4了一些新的数据帧的功能，我想用。任何机会星火1.4图像可供bdutil，或任何解决方法吗？更新：继安格斯·戴维斯建议，我下载并指出火花1.4.1彬hadoop2.6.tgz，部署进展顺利;但是，调用SqlContex ..

发布时间：2016-05-22 16:46:40 apache-spark google-hadoop apache-spark-1.4 其他开发

查找存储在RDD从Apache的火花文本文件数据的大小

我是新来的Apache火花（1.4.1版）。我写了一个小code阅读文本文件，并存储在RDD其数据。有没有办法通过它我可以得到的数据的大小RDD。这是我的code：进口org.apache.spark.SparkContext 进口org.apache.spark.rdd.RDD 进口org.apache.spark.util.SizeEstimator 进口org.apache.sp ..

发布时间：2016-05-22 16:16:38 scala apache-spark apache-spark-1.4 其他开发

如何启动星火流过程时加载历史数据，并计算运行聚合

我有一些销售相关的JSON数据在我的ElasticSearch集群，我想用星火流（使用星火1.4.1），以动态地从通过卡夫卡我的电子商务网站，总计流入促销活动有一个当前视图用户的销售总额（营业收入和产品方面）。什么是不是真的从我阅读文档清楚，我是我怎么能在星火应用程序的启动加载从ElasticSearch历史数据，并计算例如每用户的整体收入（基于历史和从卡夫卡传入销售）。我有以下的（工作） ..

发布时间：2016-05-22 16:05:08 apache-spark apache-kafka spark-streaming apache-spark-sql apache-spark-1.4 其他开发

如何处理SparkR空条目

我有一个SparkSQL数据帧。在此数据中的一些条目是空的，但他们不喜欢的行为NULL或不适用。我怎么能删除？有任何想法吗？在R I可以很容易地将其删除，但它sparkR说，没有与S4系统/方法的问题。感谢。解决方案 SparkR列提供的有用的方法包括的一长串的isNull 和 isNotNull ：＆GT; people_local＆下; - data.frame（ ..

发布时间：2016-05-22 15:38:12 r apache-spark sparkr apache-spark-1.4 其他开发

apache-spark-1.4相关内容