pyspark相关内容
寻找在新的火花数据帧的API,也不清楚是否有可能要修改数据帧列。 我怎么会去行 X 列是 A数据框的改变价值? 在熊猫这将是 df.ix [X,Y] = NEW_VALUE 解决方案 虽然你不能修改列正因为如此,你可以在一列操作,并返回一个新的数据框反映这种变化。对于你首先创建一个 UserDefinedFunction 实施操作申请,然后有选择地应用该功能仅目标列。在Python:
..
有了这样的地方的 SQLContext 让两个应用程序失败的一个实例化 HiveContext 两个独立pyspark应用与错误: 例外:(“你必须建立星火与蜂巢导出”SPARK_HIVE =真正的'和运行编译/ SBT大会“,Py4JJavaError(u'An同时呼吁None.org.apache.spark.sql.hive.HiveContext发生错误\\ N',JAVAOBJEC
..
我们正在使用的PySpark库星火1.3.1接口。 我们有两个dataframes, documents_df:= {DOCUMENT_ID,document_text} 和 keywords_df:= {关键词} 。我们想加入这两个dataframes并返回与 {DOCUMENT_ID,关键词} 对所得数据帧,使用该keyword_df.keyword出现在document_df.docume
..
您好我有很多的图像(下百万),我需要做的分类。我使用Spark和管理中的所有图像(文件名,内容1)的格式阅读,(文件名,内容2)... 成一个大RDD。 图像= sc.wholeTextFiles(“HDFS:///用户/ myuser的/图像/影像/ 00 *”) 不过,我真是糊涂做什么用的UNI code再$ P $图像psentation做。 下面是一个图像/文件的例子:(u'hdf
..
我是比较新的Apache的Spark和Python和不知道是否像我所要描述是可行的? 我有以下形式的RDD [M 1 ,男 2 ,男 3 ,男 4 ,男 5 ,男 6 .......米 N ](你得到这个当您运行rdd.collect()) 。我在想,如果有可能这个RDD转换成表格[另一RDD(M 1 ,男 2 ,男 3 ), (M 4 ,男 5 ,男 6 ).....(M N-2 ,男 N-1
..
比方说,例如,我的团队已经choosen Python作为参考语言与星火发展。但后来由于性能原因,我们要制定具体的Scala或Java特定librairies,以便将它们与我们的Python code(类似于Python的存根使用Scala或Java骷髅什么的)映射。 你不觉得是有可能的新界面定制的Python方法与某些引擎盖下的Scala或Java用户定义函数? 解决方案 我不会走那么
..
..
我试图打电话给pyspark的reduceByKey功能对格式(([A,B,C],1),(数据[A,B,C],1),( [A,D,b,E],1),... 看来pyspark不会被简单地应用.reduceByKey(添加)接受数组作为正常键,值降低的关键。 我已经尝试先将数组转换为字符串,由 .MAP((X,Y):(STR(X),Y))但这确实没有工作,因为字符串的后处理回阵列太慢了。 有没有
..
据
..
我试图提取的基础上在时间序列数据滑动窗口的功能。 在Scala中,好像有一个滑动功能基于这个帖子和
..
我是很新的火花,我想实现集群与马尔可夫模型psented重心重新$ P $一些迭代算法(期望最大化)。所以,我需要做的迭代和联接。 这是我遇到的一个问题是,每一次迭代成倍增长。结果 一些试验后,我发现,这样做迭代时,它需要坚持的是要在未来的迭代中重复使用RDD,否则每次迭代的火花将创建从开始重新计算RDD,从而提高计算时间的执行计划。 的init = sc.parallelize(的xran
..
我是新来的火花,我试图从星火文件中读取CSV数据。 下面是我在做什么: sc.textFile('FILE.CSV') .MAP(拉姆达行:(line.split(“,”)[0],line.split(“,”)[1])) 。搜集() 我希望这个电话给我我的两个文件的第一列的列表,但我得到这个错误:文件“< IPython的输入-60-73ea98550983>
..
我是新来的Apache Spark和试图利用机器学习库predict一些数据。我的数据集,现在只有约350点。下面是这些要点7: “365”,“4”,41401.387,5330569 “364”,“3”,51517.886,5946290 “363”,“2”,55059.838,6097388 “362”,“1”,43780.977,5304694 “361”,“7”,46447.196,54
..
我想,因为他们似乎更层次高比RDDS并往往会产生更可读code使用星火dataframes代替RDDS,但我会更乐意来获得更多的东西惯用的建议手头的任务。 在一个14节点谷歌Dataproc集群,我有一个由两个不同的系统转换为IDS约6百万名: SA 和 SB 。每个行包含名称, id_sa 和 id_sb 。我的目标是生产从 id_sa 映射到 id_sb 使得对于每 id_sa ,相应的 i
..
背景 在这里我原来的问题是,为什么使用的 DecisionTreeModel。predict 里面映射函数抛出一个例外呢?的和涉及到的如何与MLlib星火生成的元组(原拉布勒,predicted标签)? 当我们使用Scala的API 得到$的推荐方式 p $ pdictions为 RDD [LabeledPoint] 使用 DecisionTreeModel 是直接映射了 RDD : VA
..
我按照一些教程在线,但他们不与星火1.5.1 在OS X埃尔卡皮坦(10.11)工作 基本上我已经运行此命令下载 Apache的火花 BREW更新 酿造安装斯卡拉 BREW安装apache火花 更新的.bash_profile #对于一个IPython的笔记本电脑和pyspark整合 如果这pyspark>的/ dev / null的;然后 出口SPARK_HOME =“在/
..
我在寻找一种将RDD分成两个或更多的RDDS。我见过的关闭是这样的
..
我创建了所有可用的应用程序,包括星火在AWS的 EMR 4.0 实例。我手工做的,通过AWS控制台。我开始集群和SSHed到主节点时,它涨。在那里,我跑了 pyspark 。我收到以下错误,当 pyspark 试图创建 SparkContext : 2015年9月3日19:36:04195错误线程3 spark.SparkContext (Logging.scala:LOGERROR(96)
..
我想有效地选择从SparkSQL表中各个分区(实木复合地板中的S3)。但是,我看到星火打开表中的所有实木复合地板的文件证据,而不仅仅是通过过滤器。这使得即使是小规模的查询昂贵有大量的分区表。 下面是一个说明性的例子。我用SparkSQL和蜂巢metastore在S3上创建了一个简单的分区表: #使一些数据 DF = pandas.DataFrame({'PK':['一'] * 5 +'B']
..
我发起的EC2脚本在独立模式下的星火10节点集群。我访问的S3桶数据从PySpark壳体内,但是当我在RDD执行transormations,只有一个节点被使用过。例如,下面将读取从CommonCorpus数据: 斗=(“S3N:// @ AWS-publicdatasets /共抓取/抓取数据/ CC-MAIN-2014-23 /” “/segments/140477640
..