pyspark相关内容

星火:在多个dataframes使用相同OneHotEn codeR

我有两个 DataFrames 与同列,我想转换 一个明确列进用一热编码的载体。问题是 即,例如,在训练集3唯一值可能,而在发生 测试集可能具有比较少。 培训集:测试集:+ ------------ + + ------------ + |类型| |类型| + ------------ + + ------------ + | 0 | | 0 | | 1 | | 1 | | 1 | | 1 ..
发布时间:2016-05-22 16:40:21 Python

分区pyspark RDD矩阵

我在一个转换矩阵numpy的成RDD与分区大小10。 从pyspark进口SparkContext,SparkConf SC = SparkContext(“本地”,“简单的应用程序”) X = np.matrix(np.random.normal(MU,SIGMA,10000),DTYPE = np.float) x.shape =(100,100) RDD = sc.parallelize( ..
发布时间:2016-05-22 16:39:56 Python

星火:使用reduceByKey代替groupByKey和mapByValues

我有一个RDD与以下格式重复值: [{键:A},{键:A},{键:B},{键:C},{键2:B},{键2:B},{ KEY2:D},..] 我想新RDD有以下的输出,并获得重复的车程。 [{键:[A,B,C]},{KEY2:[B,D]},..] 我有把一组值获得重复的车程管理与以下code做到这一点。 RDD_unique = RDD_duplicates.groupByKey()ma ..
发布时间:2016-05-22 16:35:49 Python

在PySpark文本文件命令定期EX pressions

我试图找出多远我可以选择感兴趣的多个文件推此命令。比如我使用下列通配符拿起那是在多个目录中所有感兴趣的文件,但我想使用常规的前pressions或类似的地方限制上说,目录名的长度。 =行sc.textFile(“/家庭/火花1.4.0 / A / B_2 * /输出/ CSV.csv”) 但不是 * ,我可以限制目录名的长度?例如用 ^ [0-9] {8} $ ?或这样做,而不诉诸pre- ..
发布时间:2016-05-22 16:35:43 Python

PySpark - 时间重叠在RDD对象

我的目标是基于时间重叠组对象。 在我的 RDD 包含 START_TIME 和 END_TIME 。 我可能会对此效率不高,但如果它与任何其他对象的任何时间重叠什么我打算做的是分配一个ID重叠根据​​每个对象。我有时间上重叠下来的逻辑。然后,我希望小组由 overlap_id 。 因此​​,首先, mapped_rdd = rdd.map(assign_overlap_id) final ..
发布时间:2016-05-22 16:35:27 Python

处理bzip2压缩在星火JSON文件?

我在S3约200文件,例如: a_file.json.bz2 ,这些文件的每一行是一个JSON格式的记录,但一些领域被 pickle.dumps ,例如:一个日期时间字段。每个文件约1GB 的bZIP COM pression后。现在我需要在星火处理这些文件(pyspark,实际上),但我不能甚至每一个记录了。所以,你会在这里是最好的做法是什么? 的 ds.take(10)给 [(0,U'( ..
发布时间:2016-05-22 16:35:23 其他开发

KeyError异常:SparkConf初始化过程中SPARK_HOME

我是一个新手的火花,我想运行在命令行的Python脚本。我已经测试了交互和pyspark它的工作原理。我在尝试创建SC时,这个错误: 文件“test.py”,10号线,上述<&模块GT; conf=(SparkConf().setMaster('local').setAppName('a').setSparkHome('/home/dirk/spark-1.4.1-bin-hado ..
发布时间:2016-05-22 16:35:17 Python

如何读取包含在Apache中星火多个文件的zip

我有一个包含多个文本文件的压缩文件。 我想读的每个文件,并建立RDD的containining每个文件的内容列表。 VAL测试= sc.textFile(“/卷/工作/数据​​/ kaggle /拿督/测试/ 5.zip”) 只是整个文件,但如何通过拉链的每个内容重复,然后使用星火保存在相同RDD。 我很好使用Scala或Python。 在Python可能的解决方法用星火 - 存档= ..
发布时间:2016-05-22 16:34:43 其他开发

如何通过异步星火应用功能,数据框的子集?

我已经用Python编写的大熊猫一个程序,由列(日期和标签)的2需要一个非常大的数据集(每个第4个月百万行6个月),组,然后应用一个函数每个组行。有在每个分组的行的变量数目 - 从行的少数的任何地方,以数千行。有数以千计的群体每月(标签日期组合)。 我目前的程序使用多,所以它的pretty高效,我认为会很好地反映到星火。我已经与之前的map-reduce的工作,但我有在星火实施这个麻烦。我敢肯定 ..
发布时间:2016-05-22 16:33:56 Python

火花工人将蟒蛇路径

什么是“正确”的方法来设置Python的工作节点的SYS路径?它是为工作节点从主“继承”SYS路径是一个好主意?它是设置在工作节点“的.bashrc 的路径是一个好主意?还是有它设置一些标准的Spark方式? 解决方案 设置环境变量,其中的标准方法 PYSPARK_PYTHON ,就是用 CONF / spark-env.sh 文件。星火带有一个模板文件( CONF /火花env.sh.t ..
发布时间:2016-05-22 16:33:49 其他开发

如何访问广播变量的内容

我需要使用广播值的函数中做一些计算 json_data = text.map(波长X:json.loads(X)) .... #code计算平均并生成json_data ['jsontag']和AvgValue中的元组 一些RDD filtsubavg用的元组(jsontag,AvgValue中) V = sc.broadcast(filtsubavg.collect()) COM = js ..
发布时间:2016-05-22 16:33:27 Python

。wordCounts.dstream()saveAsTextFiles(QUOT;本地文件系统路径"," TXT");不写入文件

我想写JavaPairRDD到本地系统文件。低于code: JavaPairDStream<字符串,整数> wordCounts = words.mapToPair( 新PairFunction<字符串,字符串,整数>(){ @覆盖 公共Tuple2<字符串,整数>调用(String s)将{ 返回新Tuple2<字符串 ..

!PIP安装NLTK - >没有权限

我想用下面的命令笔记本安装NLTK: !画中画安装NLTK 不过,这引发以下错误:错误:无法创建'/usr/local/src/bluemix_ipythonspark_141/notebook/lib/python2.7/site-packages/nltk“: 没有权限 我怎样才能从Jupyter笔记本NLTK安装?请注意,在bluemix火花环境只能通过笔记本访问。没有她会进入到环 ..
发布时间:2016-05-22 16:32:27 其他开发

Python的星火如何映射表RDD领域到另一个RDD

我很新的蟒蛇火花根据上述主题,我想一个RDD的字段映射到另一个Rdd.Here领域就是例子 RDD1集: C_ID名 121210 ABC 121211 PQR RDD2: C_ID cn_id cn_value 121211 0 0 121210 0 1 所以匹配C_ID将命名替换为 CNID 和聚集在 cn_value 。所以输出会喜欢这个ABC 0 0 0 PQR 1 从py ..
发布时间:2016-05-22 16:32:14 Python

我可以在安装过程中的外部(R)过程连接到每个pyspark工人

我想有每个蟒蛇工人使用rpy2启动的R外壳。我可以某种类似于安装阶段期间,为此,我如何假定当您导入一个Python模块用于以后执行人的任务会发生这种情况?例如: 导入numpy的是NPdf.mapPartitions(波长X:np.zeros(X)) 在我来说,我要开始,而不是在每个执行人及进口ř库的R外壳,这将是这个样子:进口rpy2.robjects为robjects 从rpy2.rob ..
发布时间:2016-05-22 16:31:53 Python

py4j.protocol.Py4JJavaError在数据框中选择嵌套列时使用select statetment

我想执行的火花数据框(蟒蛇),它是通过从其他数据框选择特定的列和嵌套列创建新的数据框一个简单的任务 例如: df.printSchema() 根 | - TIME_STAMP:长(可为空=真) | - 国家:结构(可为空=真) | | - code:字符串(可为空=真) | | - ID:长(可为空=真) | | - TIME_ZONE:字符串(可为空=真) | ..
发布时间:2016-05-22 16:31:32 其他开发

使用二进制文件保存图像文件 - pyspark

地狱所有, 我如何保存图像文件(JPG格式)到我的本地系统。我用BinaryFiles的图片加载到火花,它们改建为阵列并处理它们。下面是code 从PIL进口图片 导入numpy的是NP 进口数学 照片= sc.binaryFiles(“路径/车*”) imagerdd = images.map(拉姆达(X,Y):(X,(np.asarray(Image.open(StringIO的(γ))) ..
发布时间:2016-05-22 16:31:09 Python