spark-dataframe相关内容

SparkSQL引用UDT的属性

我想实现一个自定义UDT并能够从星火SQL引用它(如星火SQL白皮书解释说,第4.4.2节)。 真正的例子是必须使用原头儿,或类似的场外堆数据结构支持自定义UDT。 有关这个帖子,我做了一个人为的例子。我知道我可以只使用Scala的case类,并没有做任何工作可言,但是这不是我的目标。 例如,我有一个人包含一些属性,我希望能够 SELECT person.first_name从一个人。我跑入 ..

堆栈溢出而具有UDF处理几列

我有一个数据帧与多列 STR 键入,我想一个函数适用于所有那些列,不重新命名他们的名字或添加更多的列,我尝试使用执行换的循环 withColumn (见例波纹管),但通常当我运行code,它显示了一个堆栈溢出(其作品很少),这数据帧不是很大的话,那刚刚〜15000的记录。 #df是一个数据框 高清小写字母(字符串): 返回string.strip()。低()lowerCaseUDF = ..
发布时间:2016-05-22 15:39:12 Python

Upacking列表以选择火花数据帧多列

我有一个火花数据帧东风。有子的使用这些列的列表中选择一个几列的方式? 斯卡拉> df.columns RES0:数组[字符串] =阵列(“A”,“B”,“C”,“D”) 我知道我可以这样做 df.select(“B”,“C”)。但是假设我有一个包含一些列名的列表 VAL COLS =名单(“B”,“C”),有没有办法通过这df.select? df.select(COLS)抛出一个错误 ..
发布时间:2016-05-22 15:38:09 其他开发

根据数据框火花斯卡拉列值过滤行

我有一个数据框(火花)像下面 值id 3 0 3 1 3 0 4 1 4 0 4 0 我想创建一个像下面的新的数据帧 0 3 3 1 4 1 需要经过1(值)删除所有行每个id.I试图与火花dateframe窗口函数(斯卡拉)。但不能能够找到一个solution.Seems是我在一个错误的方向前进。 我要寻找一个在Scala.Thanks 解决方案 使用monotonically_inc ..
发布时间:2016-05-22 15:36:25 其他开发

如何使用内部Pyspark Scala的类

我一直在寻找了一段时间,如果有任何方式使用 Pyspark A 斯卡拉类,我还没有发现有关此主题的任何文件,也没有指导。 让我们说我创建斯卡拉一个简单的类,它使用 Apache的火花,类似的一些库: 类SimpleClass(s​​qlContext:SQLContext,DF:数据帧,列:字符串){ 高清EXE():数据帧= { 进口sqlContext.implicits._ ..
发布时间:2016-05-22 15:32:40 Python

如何转换数据框的一列中的Apache星火列表?

我想一个数据帧的字符串列转换为一个列表。我可以从数据框API发现是RDD所以我试图将其转换回先RDD,然后应用功能的toArray向RDD。在这种情况下,长度和SQL工作就好了。但是,我从RDD得到的结果有这样的[A00001]每个元素围绕着方括号。我在想,如果有一列转换为一个列表或方法,以消除方括号的适当方式。 任何建议将是AP preciated。谢谢! 解决方案 这应该返回包含单列 ..
发布时间:2016-05-22 15:26:50 其他开发

如何创建一个空的数据帧?

我要创建的数据帧在斯卡拉指定的架构。我曾尝试使用JSON读,我的意思是看空的文件,但我不认为这是最好的做法。 解决方案 让我们假设你想用下面的模式的数据帧: 根 | - K:字符串(可为空=真) | - 五:整数(可为空= FALSE) 您只需定义架构数据帧,并使用空的 RDD [行] :进口org.apache.spark.sql.types。{ StructTy ..

星火/斯卡拉:与去年观察着填写

使用星火1.4.0,斯卡拉2.10 我一直在试图找出一种方法来填补转发空值与一个已知的观察,但我没有看到一个简单的方法。我认为这是做一个pretty平常的事,但无法找到一个示例展示了如何做到这一点。 我看到的功能来转发填补NaN的一个值,或者滞后/超前的功能,以填补或偏移数据移出,但没有拿起最后一个已知值。 在网上看,我看到很多Q / A关于R中同样的事情,但不是在星火/斯卡拉。 我用的日 ..
发布时间:2016-05-22 15:22:26 其他开发

创建空/空字段值新的数据框

我创建从现有的数据帧新的数据框,但需要(在下面code“字段1”),在这个新的DF添加新列。我该怎么办呢?工作示例code例子将是AP preciated。 VAL edwDf = omniDataFrame .withColumn(“字段1”,callUDF((价值:字符串)=>无)) .withColumn(“字段2” callUdf(“devicetypeUDF”, ..
发布时间:2016-05-22 15:18:13 其他开发

如何利用星火DataFrames查询JSON数据列?

我有一个卡桑德拉表,为了简便起见看起来类似: 键:文本 jsonData:文本 blobData:BLOB 我可以创建这个火花通过一个基本的数据帧,并使用火花卡桑德拉连接器: VAL DF = sqlContext.read .format(“org.apache.spark.sql.cassandra”) 可供选项(图(“表” - >“中MYTABLE”,“密钥空间” - & ..

在apache的火花数据帧串连列

我们如何在一个数据帧Concat的2列? 是否有火花SQL任何功能,我们可以使用Concat的一个DF表2列。 解决方案 使用原始的SQL,您可以使用 CONCAT : 在Python DF = sqlContext.createDataFrame([(“富”,1),(“酒吧”,2),( “K”,“v”)) df.registerTempTable(“DF”) sqlConte ..
发布时间:2016-05-22 15:14:42 其他开发

更新的火花数据框列

寻找在新的火花数据帧的API,也不清楚是否有可能要修改数据帧列。 我怎么会去行 X 列是 A数据框的改变价值? 在熊猫这将是 df.ix [X,Y] = NEW_VALUE 解决方案 虽然你不能修改列正因为如此,你可以在一列操作,并返回一个新的数据框反映这种变化。对于你首先创建一个 UserDefinedFunction 实施操作申请,然后有选择地应用该功能仅目标列。在Python: ..
发布时间:2016-05-22 15:14:03 Python

派生从单个列多列在Spark数据框

我有一个巨大的解析的元数据在数据框一个字符串列DF,让我们把它称为DFA,与ColmnA。 我想破此列,ColmnA成多列直通功能,ClassXYZ = func1的(ColmnA)。这个函数返回一个类ClassXYZ,多变量,每个这些变量现在必须映射到新列,这样的ColmnA1,ColmnA2等。 如何我会通过调用这个FUNC1只有一次做这样的转型,从1数据框到另一个这些附加列,不用重复,它 ..

查找星火数据帧每组最大行

我想,因为他们似乎更层次高比RDDS并往往会产生更可读code使用星火dataframes代替RDDS,但我会更乐意来获得更多的东西惯用的建议手头的任务。 在一个14节点谷歌Dataproc集群,我有一个由两个不同的系统转换为IDS约6百万名: SA 和 SB 。每个行包含名称, id_sa 和 id_sb 。我的目标是生产从 id_sa 映射到 id_sb 使得对于每 id_sa ,相应的 i ..