rdd相关内容

序列化RDD

我有我试图序列化,然后通过反序列化重构的RDD。我想看看这是否可能在Apache中的火花。 静态JavaSparkContext SC =新JavaSparkContext(CONF); 静态SerializerInstance SI = SparkEnv.get()closureSerializer()的newInstance()。 静态ClassTag< Jav ..
发布时间:2016-05-22 15:27:20 Java开发

星火最快的方式为numpy的阵列创建RDD

我的火花应用程序是使用numpy的阵列RDD的。结果 此刻,我是从AWS S3读我的数据,并对其重新presented作为 一个简单的文本文件,其中每一行是一个向量,每个元素是由空间分隔,例如: 1 2 3 5.1 3.6 2.1 3 0.24 1.333 我为了从中创建一个numpy的阵列正在使用numpy的函数 loadtxt()。 结果但是,这种方法似乎很慢,我的应用程序花费太多 ..
发布时间:2016-05-22 15:27:04 Python

星火MLIB FPGrowth作业失败,内存错误

我有一个相当简单的用例,但可能非常大的结果集。我的code做以下(在pyspark壳): 从pyspark.mllib.fpm进口FPGrowth 数据= sc.textFile(“/用户/我/ associationtestproject /数据/ sourcedata.txt”) 交易= Data.Map中(拉姆达行:line.strip()分(''))。 模型= FPGrowth.trai ..
发布时间:2016-05-22 15:27:00 其他开发

解析Scala中多行记录

下面是我的RDD [字符串] M1模块1 PIP一个Z A PIP bž乙 PIPÇÿN4M2模块2 PIP一个我N4 PIP B○ð PIP C 0 N5 和等。 基本上,我需要密钥的RDD(包含在一号线的第二个字),并且可以根据迭代后续PIP线的值。 我试过以下 VAL usgPairRDD = usgRDD.map(X =>(x.split(“\\\\ N”)(0),X)) ..
发布时间:2016-05-22 15:26:38 其他开发

为什么星火RDD分区有2GB的限制HDFS?

我在使用mllib随机森林训练数据时,得到一个错误。由于我的数据集是巨大的,默认的分区是相对较小的。因此抛出异常,表明“大小超过Integer.MAX_VALUE的”还原最初堆栈跟踪如下, 15/04/16 14时13分03秒WARN scheduler.TaskSetManager:失落的任务在19.0 舞台6.0(TID 120,10.215.149.47): java.lang.I ..
发布时间:2016-05-22 15:22:19 其他开发

计算器由于长期RDD天堂

我有成千上万的小文件在HDFS。需要处理文件的稍小的子集(这又是在千)的fileList包含需要被处理的文件路径的列表。 //的fileList ==在HDFS文件路径列表VAR masterRDD:org.apache.spark.rdd.RDD [(字符串,字符串)] = sparkContext.emptyRDD为(ⅰ&下; - 0到fileList.size() - 1){VAL ..
发布时间:2016-05-22 15:19:32 其他开发

在星火RDD懒惰的foreach

我有一个字符串的一大RDD(通过几个工会获得 sc.textFile(...))。 我现在要查找在RDD给定的字符串,我想要搜索时停止“足够好”的比赛已经找到。 我可以改造的foreach 或过滤器或地图用于此目的,但所有这些都将通过在该RDD每个元素迭代,无论匹配是否已到达 有没有办法短路这个过程中,避免在整个迭代RDD? 解决方案 我可以改造的foreach,或过滤器,或映射 ..
发布时间:2016-05-22 15:18:53 其他开发

如何选择一个范围星火RDD元素?

我想选择一个范围在Spark RDD元素。例如,我有一百个元素的RDD,我需要选择怎样做到这一点的元素,从60至80? 我看到RDD有拿(I:int)方法,它返回第i个元素。但拿我终于元素或要素我从中间开始在一定的指数没有相应的方法。 解决方案 我不认为这是一种有效的方法来做到这一点呢。但最简单的方法是使用过滤器(),可以说你有一个RDD,对与键值对,你只需要60至80个,包括元素只是做 ..
发布时间:2016-05-22 15:17:03 其他开发

阿帕奇星火RDD过滤成两个RDDS

我需要一个RDD分为两部分: 其中满足条件1部分;这不另一部分。我可以做过滤器两次对原RDD但似乎效率不高。有没有一种方法,可以做我后?我找不到在API也不在任何文献 解决方案 星火默认不支持这一点。过滤相同的数据的两倍并不坏,如果你缓存它事先和过滤本身就是快。 如果它真的只是两种不同的类型,你可以使用一个辅助方法: 隐类RDDOps [T](RDD:RDD [T]){ 高清part ..
发布时间:2016-05-22 15:15:24 其他开发

PySpark DataFrames - 枚举,无须转换为大熊猫的方式?

我有一个非常大的 pyspark.sql.dataframe.DataFrame 命名DF。 我需要列举以下纪录,因此,能够具有一定的索引来访问记录的一些方法。 (或指标选择组记录范围) 在熊猫,我可以做只是 指数= [2​​,3,6,7] DF [索引] 在这里,我想类似的东西,的(无需转换数据帧到大熊猫)的 我能到最接近的是: 通过枚举原始数据框的所有对象: =指标np.ara ..
发布时间:2016-05-22 15:15:21 Python

阿帕奇星火:什么是使用RDD.aggregateByKey RDD.groupByKey()相当于()实现?

阿帕奇星火 pyspark.RDD API文档提到 groupByKey()是低效的。相反,它是推荐使用 reduceByKey(), aggregateByKey(), combineByKey() 或 foldByKey()来代替。这将导致对改组之前做一些在工人的聚集,从而在整个工减少数据混洗。考虑下面的数据集 和 groupByKey()前pression,什么是等效的,高效的实现(减少交 ..
发布时间:2016-05-22 15:14:40 其他开发

分区RDD进长度为n的元组

我是比较新的Apache的Spark和Python和不知道是否像我所要描述是可行的? 我有以下形式的RDD [M 1 ,男 2 ,男 3 ,男 4 ,男 5 ,男 6 .......米 N ](你得到这个当您运行rdd.collect()) 。我在想,如果有可能这个RDD转换成表格[另一RDD(M 1 ,男 2 ,男 3 ), (M 4 ,男 5 ,男 6 ).....(M N-2 ,男 N-1 ..
发布时间:2016-05-22 15:13:12 Python

名单为PySpark的reduceByKey的关键

我试图打电话给pyspark的reduceByKey功能对格式(([A,B,C],1),(数据[A,B,C],1),( [A,D,b,E],1),... 看来pyspark不会被简单地应用.reduceByKey(添加)接受数组作为正常键,值降低的关键。 我已经尝试先将数组转换为字符串,由 .MAP((X,Y):(STR(X),Y))但这确实没有工作,因为字符串的后处理回阵列太慢了。 有没有 ..
发布时间:2016-05-22 15:12:39 Python

矩阵乘法在Apache中星火

我想使用Apache Spark和java做矩阵乘法。 我有2个主要问题: 如何创建RDD可以在Apache的星火重新present矩阵? 如何将两个这样的RDD? 解决方案 所有依赖于输入数据和尺寸,但一般来讲,​​你要的是不是一个 RDD 但一从 ..
发布时间:2016-05-22 15:12:31 Java开发

如何在转星火的RDD

我有一个这样的RDD: 1 2 3 4 5 6 7 8 9 有一个矩阵。现在我想转的RDD是这样的: 1 4 7 2 5 8 3 6 9 我怎样才能做到这一点? 解决方案 假设你有一个N&次;×M矩阵 如果N和M都非常小,你可以按住N'倍;存储器M的项目,它并没有多大意义,使用RDD。但换位很容易: VAL RDD = sc.parallelize(序列(序列(1,2,3),SEQ ..
发布时间:2016-05-22 15:12:21 其他开发

如何RDD对象转换为数据帧中的火花

我怎么能转换成一个RDD( org.apache.spark.rdd.RDD [org.apache.spark.sql.Row] )到数据框 org.apache.spark.sql.DataFrame 。我转换一个数据帧使用 .rdd 来RDD。处理完后我想回去的数据帧。我怎样才能做到这一点? 解决方案 ..
发布时间:2016-05-22 15:11:46 其他开发

(为什么)我们需要调用缓存或坚持在RDD

当从一个文本文件或集合(或从另一个RDD),我们需要调用“缓存”或“坚持”明确的RDD数据存储到内存中创建一个弹性分布式数据集(RDD)?或者是默认存储在分布式方式在存储器中的RDD数据? VAL TEXTFILE = sc.textFile(“/用户/ emp.txt”) 按我的理解,上述步骤之后,文本文件是RDD,并适用于所有/一些节点的内存。 如果是这样,为什么我们需要调用“缓存”或 ..
发布时间:2016-05-22 15:11:24 其他开发