pyspark 第206页 - IT屋-程序员软件开发技术分享社区

更新的火花数据框列

寻找在新的火花数据帧的API，也不清楚是否有可能要修改数据帧列。我怎么会去行 X 列是 A数据框的改变价值？在熊猫这将是 df.ix [X，Y] = NEW_VALUE 解决方案虽然你不能修改列正因为如此，你可以在一列操作，并返回一个新的数据框反映这种变化。对于你首先创建一个 UserDefinedFunction 实施操作申请，然后有选择地应用该功能仅目标列。在Python： ..

发布时间：2016-05-22 15:14:03 python apache-spark pyspark apache-spark-sql spark-dataframe Python

多星火应用与HiveContext

有了这样的地方的 SQLContext 让两个应用程序失败的一个实例化 HiveContext 两个独立pyspark应用与错误：例外：（“你必须建立星火与蜂巢导出”SPARK_HIVE =真正的'和运行编译/ SBT大会“，Py4JJavaError（u'An同时呼吁None.org.apache.spark.sql.hive.HiveContext发生错误\\ N'，JAVAOBJEC ..

发布时间：2016-05-22 15:13:48 apache-spark hive pyspark 其他开发

我们怎样才能使用SQL式的＆QUOT 2星火SQL dataframes;喜欢＆QUOT;标准？

我们正在使用的PySpark库星火1.3.1接口。我们有两个dataframes， documents_df：= {DOCUMENT_ID，document_text} 和 keywords_df：= {关键词} 。我们想加入这两个dataframes并返回与 {DOCUMENT_ID，关键词} 对所得数据帧，使用该keyword_df.keyword出现在document_df.docume ..

发布时间：2016-05-22 15:13:42 python apache-spark apache-spark-sql pyspark Python

星火使用PySpark读取图像

您好我有很多的图像（下百万），我需要做的分类。我使用Spark和管理中的所有图像（文件名，内容1）的格式阅读，（文件名，内容2）... 成一个大RDD。图像= sc.wholeTextFiles（“HDFS：///用户/ myuser的/图像/影像/ 00 *”）不过，我真是糊涂做什么用的UNI code再$ P $图像psentation做。下面是一个图像/文件的例子：（u'hdf ..

发布时间：2016-05-22 15:13:41 python image apache-spark scipy pyspark Python

分区RDD进长度为n的元组

我是比较新的Apache的Spark和Python和不知道是否像我所要描述是可行的？我有以下形式的RDD [M 1 ，男 2 ，男 3 ，男 4 ，男 5 ，男 6 .......米 N ]（你得到这个当您运行rdd.collect（））。我在想，如果有可能这个RDD转换成表格[另一RDD（M 1 ，男 2 ，男 3 ），（M 4 ，男 5 ，男 6 ）.....（M N-2 ，男 N-1 ..

发布时间：2016-05-22 15:13:12 python apache-spark pyspark rdd Python

星火：如何使用Scala或Java用户定义函数映射的Python？

比方说，例如，我的团队已经choosen Python作为参考语言与星火发展。但后来由于性能原因，我们要制定具体的Scala或Java特定librairies，以便将它们与我们的Python code（类似于Python的存根使用Scala或Java骷髅什么的）映射。你不觉得是有可能的新界面定制的Python方法与某些引擎盖下的Scala或Java用户定义函数？解决方案我不会走那么 ..

发布时间：2016-05-22 15:13:08 java python scala apache-spark pyspark Java开发

如何加载在IPython的笔记本罐子dependenices

..

发布时间：2016-05-22 15:12:58 csv apache-spark pyspark pyspark-sql 其他开发

名单为PySpark的reduceByKey的关键

我试图打电话给pyspark的reduceByKey功能对格式（（[A，B，C]，1），（数据[A，B，C]，1），（ [A，D，b，E]，1），... 看来pyspark不会被简单地应用.reduceByKey（添加）接受数组作为正常键，值降低的关键。我已经尝试先将数组转换为字符串，由 .MAP（（X，Y）：（STR（X），Y））但这确实没有工作，因为字符串的后处理回阵列太慢了。有没有 ..

发布时间：2016-05-22 15:12:39 python apache-spark rdd pyspark Python

请问火花predicate下推工作，JDBC？

据 ..

发布时间：2016-05-22 15:12:33 python jdbc apache-spark apache-spark-sql pyspark Python

如何在Pyspark滑动窗口在时间序列数据转换数据

我试图提取的基础上在时间序列数据滑动窗口的功能。在Scala中，好像有一个滑动功能基于这个帖子和 ..

发布时间：2016-05-22 15:12:07 python apache-spark time-series pyspark Python

使用连接时，星火迭代时间成倍增加

我是很新的火花，我想实现集群与马尔可夫模型psented重心重新$ P $一些迭代算法（期望最大化）。所以，我需要做的迭代和联接。这是我遇到的一个问题是，每一次迭代成倍增长。结果一些试验后，我发现，这样做迭代时，它需要坚持的是要在未来的迭代中重复使用RDD，否则每次迭代的火花将创建从开始重新计算RDD，从而提高计算时间的执行计划。的init = sc.parallelize（的xran ..

发布时间：2016-05-22 15:11:58 python loops apache-spark iteration pyspark Python

负载星火CSV文件

我是新来的火花，我试图从星火文件中读取CSV数据。下面是我在做什么： sc.textFile（'FILE.CSV'） .MAP（拉姆达行：（line.split（“，”）[0]，line.split（“，”）[1]））。搜集（）我希望这个电话给我我的两个文件的第一列的列表，但我得到这个错误：文件“＆LT; IPython的输入-60-73ea98550983＆gt; ..

发布时间：2016-05-22 15:11:52 python csv apache-spark pyspark Python

星火mllib predicting奇怪的数字或NaN

我是新来的Apache Spark和试图利用机器学习库predict一些数据。我的数据集，现在只有约350点。下面是这些要点7： “365”，“4”，41401.387,5330569 “364”，“3”，51517.886,5946290 “363”，“2”，55059.838,6097388 “362”，“1”，43780.977,5304694 “361”，“7”，46447.196,54 ..

发布时间：2016-05-22 15:11:49 python apache-spark pyspark apache-spark-mllib gradient-descent Python

查找星火数据帧每组最大行

我想，因为他们似乎更层次高比RDDS并往往会产生更可读code使用星火dataframes代替RDDS，但我会更乐意来获得更多的东西惯用的建议手头的任务。在一个14节点谷歌Dataproc集群，我有一个由两个不同的系统转换为IDS约6百万名： SA 和 SB 。每个行包含名称， id_sa 和 id_sb 。我的目标是生产从 id_sa 映射到 id_sb 使得对于每 id_sa ，相应的 i ..

发布时间：2016-05-22 15:11:40 sql apache-spark pyspark apache-spark-sql spark-dataframe 其他开发

如何使用Java / Scala的功能从动作还是转型？

背景在这里我原来的问题是，为什么使用的 DecisionTreeModel。predict 里面映射函数抛出一个例外呢？的和涉及到的如何与MLlib星火生成的元组（原拉布勒，predicted标签）？当我们使用Scala的API 得到$的推荐方式 p $ pdictions为 RDD [LabeledPoint] 使用 DecisionTreeModel 是直接映射了 RDD ： VA ..

发布时间：2016-05-22 15:11:28 python scala apache-spark pyspark apache-spark-mllib Python

链接星火与IPython的笔记本

我按照一些教程在线，但他们不与星火1.5.1 在OS X埃尔卡皮坦（10.11）工作基本上我已经运行此命令下载 Apache的火花 BREW更新酿造安装斯卡拉 BREW安装apache火花更新的.bash_profile ＃对于一个IPython的笔记本电脑和pyspark整合如果这pyspark＆GT;的/ dev / null的;然后出口SPARK_HOME =“在/ ..

发布时间：2016-05-22 15:11:11 apache-spark ipython ipython-notebook pyspark osx-elcapitan 其他开发

如何将RDD分成两个或更多RDDS？

我在寻找一种将RDD分成两个或更多的RDDS。我见过的关闭是这样的 ..

发布时间：2016-05-22 15:11:08 apache-spark pyspark rdd 其他开发

在EMR 4.0错误启动星火

我创建了所有可用的应用程序，包括星火在AWS的 EMR 4.0 实例。我手工做的，通过AWS控制台。我开始集群和SSHed到主节点时，它涨。在那里，我跑了 pyspark 。我收到以下错误，当 pyspark 试图创建 SparkContext ： 2015年9月3日19：36：04195错误线程3 spark.SparkContext （Logging.scala：LOGERROR（96） ..

发布时间：2015-12-01 13:33:50 amazon-web-services apache-spark pyspark amazon-emr 云存储

分区不能被修剪简单SparkSQL查询

我想有效地选择从SparkSQL表中各个分区（实木复合地板中的S3）。但是，我看到星火打开表中的所有实木复合地板的文件证据，而不仅仅是通过过滤器。这使得即使是小规模的查询昂贵有大量的分区表。下面是一个说明性的例子。我用SparkSQL和蜂巢metastore在S3上创建了一个简单的分区表：＃使一些数据 DF = pandas.DataFrame（{'PK'：['一'] * 5 +'B'] ..

发布时间：2015-12-01 10:35:23 amazon-s3 apache-spark apache-spark-sql pyspark parquet 云存储

如何充分利用集群中的所有节点的火花？

我发起的EC2脚本在独立模式下的星火10节点集群。我访问的S3桶数据从PySpark壳体内，但是当我在RDD执行transormations，只有一个节点被使用过。例如，下面将读取从CommonCorpus数据：斗=（“S3N：// @ AWS-publicdatasets /共抓取/抓取数据/ CC-MAIN-2014-23 /” “/segments/140477640 ..

发布时间：2015-12-01 10:28:15 amazon-ec2 apache-spark pyspark 云存储

pyspark相关内容