rdd 第29页 - IT屋-程序员软件开发技术分享社区

序列化RDD

我有我试图序列化，然后通过反序列化重构的RDD。我想看看这是否可能在Apache中的火花。静态JavaSparkContext SC =新JavaSparkContext（CONF）; 静态SerializerInstance SI = SparkEnv.get（）closureSerializer（）的newInstance（）。静态ClassTag＆LT; Jav ..

发布时间：2016-05-22 15:27:20 java apache-spark rdd Java开发

星火数据框中变换多行列

我是引发一个新手，我想为转化下面的源数据帧（负载从JSON文件）： + - + ----- + ----- + | A |计数|大| + - + ----- + ----- + | A | 1 | M1 | | A | 1 | M2 | | A | 2 | M3 | | A | 3 | M4 | | C | 4 | M1 | | C | 1 | M2 | | C | 2 | M3 | ..

发布时间：2016-05-22 15:27:10 python apache-spark apache-spark-sql rdd spark-dataframe Python

星火最快的方式为numpy的阵列创建RDD

我的火花应用程序是使用numpy的阵列RDD的。结果此刻，我是从AWS S3读我的数据，并对其重新presented作为一个简单的文本文件，其中每一行是一个向量，每个元素是由空间分隔，例如： 1 2 3 5.1 3.6 2.1 3 0.24 1.333 我为了从中创建一个numpy的阵列正在使用numpy的函数 loadtxt（）。结果但是，这种方法似乎很慢，我的应用程序花费太多 ..

发布时间：2016-05-22 15:27:04 python numpy apache-spark pyspark rdd Python

星火MLIB FPGrowth作业失败，内存错误

我有一个相当简单的用例，但可能非常大的结果集。我的code做以下（在pyspark壳）：从pyspark.mllib.fpm进口FPGrowth 数据= sc.textFile（“/用户/我/ associationtestproject /数据/ sourcedata.txt”）交易= Data.Map中（拉姆达行：line.strip（）分（''））。模型= FPGrowth.trai ..

发布时间：2016-05-22 15:27:00 apache-spark rdd apache-spark-mllib 其他开发

解析Scala中多行记录

下面是我的RDD [字符串] M1模块1 PIP一个Z A PIP bž乙 PIPÇÿN4M2模块2 PIP一个我N4 PIP B○ð PIP C 0 N5 和等。基本上，我需要密钥的RDD（包含在一号线的第二个字），并且可以根据迭代后续PIP线的值。我试过以下 VAL usgPairRDD = usgRDD.map（X =＆GT;（x.split（“\\\\ N”）（0），X）） ..

发布时间：2016-05-22 15:26:38 scala apache-spark rdd 其他开发

为什么星火RDD分区有2GB的限制HDFS？

我在使用mllib随机森林训练数据时，得到一个错误。由于我的数据集是巨大的，默认的分区是相对较小的。因此抛出异常，表明“大小超过Integer.MAX_VALUE的”还原最初堆栈跟踪如下， 15/04/16 14时13分03秒WARN scheduler.TaskSetManager：失落的任务在19.0 舞台6.0（TID 120，10.215.149.47）： java.lang.I ..

发布时间：2016-05-22 15:22:19 scala apache-spark rdd 其他开发

计算器由于长期RDD天堂

我有成千上万的小文件在HDFS。需要处理文件的稍小的子集（这又是在千）的fileList包含需要被处理的文件路径的列表。 //的fileList ==在HDFS文件路径列表VAR masterRDD：org.apache.spark.rdd.RDD [（字符串，字符串）] = sparkContext.emptyRDD为（ⅰ＆下; - 0到fileList.size（） - 1）{VAL ..

发布时间：2016-05-22 15:19:32 scala apache-spark rdd 其他开发

根据条件筛选RDD和提取匹配的星火Python数据

我有这样的数据， cl_id cn_id cn_value 10004，77173296，390.0 10004，77173299，376.0 10004，77173300，0.0 20005，77173296，0.0 20005，77173299，6.0 2005年，77438800，2.0 Cl_id编号：10004，20005 由10004过滤器 10004，77173296，3 ..

发布时间：2016-05-22 15:19:02 python apache-spark rdd Python

在星火RDD懒惰的foreach

我有一个字符串的一大RDD（通过几个工会获得 sc.textFile（...））。我现在要查找在RDD给定的字符串，我想要搜索时停止“足够好”的比赛已经找到。我可以改造的foreach 或过滤器或地图用于此目的，但所有这些都将通过在该RDD每个元素迭代，无论匹配是否已到达有没有办法短路这个过程中，避免在整个迭代RDD？解决方案我可以改造的foreach，或过滤器，或映射 ..

发布时间：2016-05-22 15:18:53 apache-spark rdd lazy-sequences 其他开发

如何选择一个范围星火RDD元素？

我想选择一个范围在Spark RDD元素。例如，我有一百个元素的RDD，我需要选择怎样做到这一点的元素，从60至80？我看到RDD有拿（I：int）方法，它返回第i个元素。但拿我终于元素或要素我从中间开始在一定的指数没有相应的方法。解决方案我不认为这是一种有效的方法来做到这一点呢。但最简单的方法是使用过滤器（），可以说你有一个RDD，对与键值对，你只需要60至80个，包括元素只是做 ..

发布时间：2016-05-22 15:17:03 apache-spark rdd 其他开发

阿帕奇星火RDD过滤成两个RDDS

我需要一个RDD分为两部分：其中满足条件1部分;这不另一部分。我可以做过滤器两次对原RDD但似乎效率不高。有没有一种方法，可以做我后？我找不到在API也不在任何文献解决方案星火默认不支持这一点。过滤相同的数据的两倍并不坏，如果你缓存它事先和过滤本身就是快。如果它真的只是两种不同的类型，你可以使用一个辅助方法：隐类RDDOps [T]（RDD：RDD [T]）{ 高清part ..

发布时间：2016-05-22 15:15:24 apache-spark rdd 其他开发

PySpark DataFrames - 枚举，无须转换为大熊猫的方式？

我有一个非常大的 pyspark.sql.dataframe.DataFrame 命名DF。我需要列举以下纪录，因此，能够具有一定的索引来访问记录的一些方法。（或指标选择组记录范围）在熊猫，我可以做只是指数= [2,3,6,7] DF [索引] 在这里，我想类似的东西，的（无需转换数据帧到大熊猫）的我能到最接近的是：通过枚举原始数据框的所有对象： =指标np.ara ..

发布时间：2016-05-22 15:15:21 python apache-spark bigdata pyspark rdd Python

如何找到使用中位数星火

我如何使用分布式方法找到整数RDD的中位数，IPython的，和Spark？该RDD是约700 000元，因此过大收集和发现中位数。此问题是类似这个问题。然而，问题的答案是使用Scala，我就不知道了。 ..

发布时间：2016-05-22 15:14:50 python apache-spark median rdd pyspark Python

阿帕奇星火：什么是使用RDD.aggregateByKey RDD.groupByKey（）相当于（）实现？

阿帕奇星火 pyspark.RDD API文档提到 groupByKey（）是低效的。相反，它是推荐使用 reduceByKey（）， aggregateByKey（）， combineByKey（）或 foldByKey（）来代替。这将导致对改组之前做一些在工人的聚集，从而在整个工减少数据混洗。考虑下面的数据集和 groupByKey（）前pression，什么是等效的，高效的实现（减少交 ..

发布时间：2016-05-22 15:14:40 apache-spark rdd pyspark 其他开发

分区RDD进长度为n的元组

我是比较新的Apache的Spark和Python和不知道是否像我所要描述是可行的？我有以下形式的RDD [M 1 ，男 2 ，男 3 ，男 4 ，男 5 ，男 6 .......米 N ]（你得到这个当您运行rdd.collect（））。我在想，如果有可能这个RDD转换成表格[另一RDD（M 1 ，男 2 ，男 3 ），（M 4 ，男 5 ，男 6 ）.....（M N-2 ，男 N-1 ..

发布时间：2016-05-22 15:13:12 python apache-spark pyspark rdd Python

名单为PySpark的reduceByKey的关键

我试图打电话给pyspark的reduceByKey功能对格式（（[A，B，C]，1），（数据[A，B，C]，1），（ [A，D，b，E]，1），... 看来pyspark不会被简单地应用.reduceByKey（添加）接受数组作为正常键，值降低的关键。我已经尝试先将数组转换为字符串，由 .MAP（（X，Y）：（STR（X），Y））但这确实没有工作，因为字符串的后处理回阵列太慢了。有没有 ..

发布时间：2016-05-22 15:12:39 python apache-spark rdd pyspark Python

矩阵乘法在Apache中星火

我想使用Apache Spark和java做矩阵乘法。我有2个主要问题：如何创建RDD可以在Apache的星火重新present矩阵？如何将两个这样的RDD？解决方案所有依赖于输入数据和尺寸，但一般来讲，你要的是不是一个 RDD 但一从 ..

发布时间：2016-05-22 15:12:31 java apache-spark rdd apache-spark-mllib Java开发

如何在转星火的RDD

我有一个这样的RDD： 1 2 3 4 5 6 7 8 9 有一个矩阵。现在我想转的RDD是这样的： 1 4 7 2 5 8 3 6 9 我怎样才能做到这一点？解决方案假设你有一个N＆次;×M矩阵如果N和M都非常小，你可以按住N'倍;存储器M的项目，它并没有多大意义，使用RDD。但换位很容易： VAL RDD = sc.parallelize（序列（序列（1，2，3），SEQ ..

发布时间：2016-05-22 15:12:21 scala apache-spark rdd 其他开发

如何RDD对象转换为数据帧中的火花

我怎么能转换成一个RDD（ org.apache.spark.rdd.RDD [org.apache.spark.sql.Row] ）到数据框 org.apache.spark.sql.DataFrame 。我转换一个数据帧使用 .rdd 来RDD。处理完后我想回去的数据帧。我怎样才能做到这一点？解决方案 ..

发布时间：2016-05-22 15:11:46 scala apache-spark rdd 其他开发

（为什么）我们需要调用缓存或坚持在RDD

当从一个文本文件或集合（或从另一个RDD），我们需要调用“缓存”或“坚持”明确的RDD数据存储到内存中创建一个弹性分布式数据集（RDD）？或者是默认存储在分布式方式在存储器中的RDD数据？ VAL TEXTFILE = sc.textFile（“/用户/ emp.txt”）按我的理解，上述步骤之后，文本文件是RDD，并适用于所有/一些节点的内存。如果是这样，为什么我们需要调用“缓存”或 ..

发布时间：2016-05-22 15:11:24 scala apache-spark rdd 其他开发

rdd相关内容