pyspark相关内容

更新的火花数据框列

寻找在新的火花数据帧的API,也不清楚是否有可能要修改数据帧列。 我怎么会去行 X 列是 A数据框的改变价值? 在熊猫这将是 df.ix [X,Y] = NEW_VALUE 解决方案 虽然你不能修改列正因为如此,你可以在一列操作,并返回一个新的数据框反映这种变化。对于你首先创建一个 UserDefinedFunction 实施操作申请,然后有选择地应用该功能仅目标列。在Python: ..
发布时间:2016-05-22 15:14:03 Python

多星火应用与HiveContext

有了这样的地方的 SQLContext 让两个应用程序失败的一个实例化 HiveContext 两个独立pyspark应用与错误: 例外:(“你必须建立星火与蜂巢导出”SPARK_HIVE =真正的'和运行编译/ SBT大会“,Py4JJavaError(u'An同时呼吁None.org.apache.spark.sql.hive.HiveContext发生错误\\ N',JAVAOBJEC ..
发布时间:2016-05-22 15:13:48 其他开发

星火使用PySpark读取图像

您好我有很多的图像(下百万),我需要做的分类。我使用Spark和管理中的所有图像(文件名,内容1)的格式阅读,(文件名,内容2)... 成一个大RDD。 图像= sc.wholeTextFiles(“HDFS:///用户/ myuser的/图像/影像/ 00 *”) 不过,我真是糊涂做什么用的UNI code再$ P $图像psentation做。 下面是一个图像/文件的例子:(u'hdf ..
发布时间:2016-05-22 15:13:41 Python

分区RDD进长度为n的元组

我是比较新的Apache的Spark和Python和不知道是否像我所要描述是可行的? 我有以下形式的RDD [M 1 ,男 2 ,男 3 ,男 4 ,男 5 ,男 6 .......米 N ](你得到这个当您运行rdd.collect()) 。我在想,如果有可能这个RDD转换成表格[另一RDD(M 1 ,男 2 ,男 3 ), (M 4 ,男 5 ,男 6 ).....(M N-2 ,男 N-1 ..
发布时间:2016-05-22 15:13:12 Python

星火:如何使用Scala或Java用户定义函数映射的Python?

比方说,例如,我的团队已经choosen Python作为参考语言与星火发展。但后来由于性能原因,我们要制定具体的Scala或Java特定librairies,以便将它们与我们的Python code(类似于Python的存根使用Scala或Java骷髅什么的)映射。 你不觉得是有可能的新界面定制的Python方法与某些引擎盖下的Scala或Java用户定义函数? 解决方案 我不会走那么 ..
发布时间:2016-05-22 15:13:08 Java开发

名单为PySpark的reduceByKey的关键

我试图打电话给pyspark的reduceByKey功能对格式(([A,B,C],1),(数据[A,B,C],1),( [A,D,b,E],1),... 看来pyspark不会被简单地应用.reduceByKey(添加)接受数组作为正常键,值降低的关键。 我已经尝试先将数组转换为字符串,由 .MAP((X,Y):(STR(X),Y))但这确实没有工作,因为字符串的后处理回阵列太慢了。 有没有 ..
发布时间:2016-05-22 15:12:39 Python

使用连接时,星火迭代时间成倍增加

我是很新的火花,我想实现集群与马尔可夫模型psented重心重新$ P $一些迭代算法(期望最大化)。所以,我需要做的迭代和联接。 这是我遇到的一个问题是,每一次迭代成倍增长。结果 一些试验后,我发现,这样做迭代时,它需要坚持的是要在未来的迭代中重复使用RDD,否则每次迭代的火花将创建从开始重新计算RDD,从而提高计算时间的执行计划。 的init = sc.parallelize(的xran ..
发布时间:2016-05-22 15:11:58 Python

负载星火CSV文件

我是新来的火花,我试图从星火文件中读取CSV数据。 下面是我在做什么: sc.textFile('FILE.CSV') .MAP(拉姆达行:(line.split(“,”)[0],line.split(“,”)[1])) 。搜集() 我希望这个电话给我我的两个文件的第一列的列表,但我得到这个错误:文件“< IPython的输入-60-73ea98550983> ..
发布时间:2016-05-22 15:11:52 Python

查找星火数据帧每组最大行

我想,因为他们似乎更层次高比RDDS并往往会产生更可读code使用星火dataframes代替RDDS,但我会更乐意来获得更多的东西惯用的建议手头的任务。 在一个14节点谷歌Dataproc集群,我有一个由两个不同的系统转换为IDS约6百万名: SA 和 SB 。每个行包含名称, id_sa 和 id_sb 。我的目标是生产从 id_sa 映射到 id_sb 使得对于每 id_sa ,相应的 i ..

如何使用Java / Scala的功能从动作还是转型?

背景 在这里我原来的问题是,为什么使用的 DecisionTreeModel。predict 里面映射函数抛出一个例外呢?的和涉及到的如何与MLlib星火生成的元组(原拉布勒,predicted标签)? 当我们使用Scala的API 得到$的推荐方式 p $ pdictions为 RDD [LabeledPoint] 使用 DecisionTreeModel 是直接映射了 RDD : VA ..
发布时间:2016-05-22 15:11:28 Python

链接星火与IPython的笔记本

我按照一些教程在线,但他们不与星火1.5.1 在OS X埃尔卡皮坦(10.11)工作 基本上我已经运行此命令下载 Apache的火花 BREW更新 酿造安装斯卡拉 BREW安装apache火花 更新的.bash_profile #对于一个IPython的笔记本电脑和pyspark整合 如果这pyspark>的/ dev / null的;然后 出口SPARK_HOME =“在/ ..

在EMR 4.0错误启动星火

我创建了所有可用的应用程序,包括星火在AWS的 EMR 4.0 实例。我手工做的,通过AWS控制台。我开始集群和SSHed到主节点时,它涨。在那里,我跑了 pyspark 。我收到以下错误,当 pyspark 试图创建 SparkContext : 2015年9月3日19:36:04195错误线程3 spark.SparkContext (Logging.scala:LOGERROR(96) ..
发布时间:2015-12-01 13:33:50 云存储

分区不能被修剪简单SparkSQL查询

我想有效地选择从SparkSQL表中各个分区(实木复合地板中的S3)。但是,我看到星火打开表中的所有实木复合地板的文件证据,而不仅仅是通过过滤器。这使得即使是小规模的查询昂贵有大量的分区表。 下面是一个说明性的例子。我用SparkSQL和蜂巢metastore在S3上创建了一个简单的分区表: #使一些数据 DF = pandas.DataFrame({'PK':['一'] * 5 +'B'] ..
发布时间:2015-12-01 10:35:23 云存储

如何充分利用集群中的所有节点的火花?

我发起的EC2脚本在独立模式下的星火10节点集群。我访问的S3桶数据从PySpark壳体内,但是当我在RDD执行transormations,只有一个节点被使用过。例如,下面将读取从CommonCorpus数据: 斗=(“S3N:// @ AWS-publicdatasets /共抓取/抓取数据/ CC-MAIN-2014-23 /” “/segments/140477640 ..
发布时间:2015-12-01 10:28:15 云存储