spark-dataframe相关内容
我想实现一个自定义UDT并能够从星火SQL引用它(如星火SQL白皮书解释说,第4.4.2节)。 真正的例子是必须使用原头儿,或类似的场外堆数据结构支持自定义UDT。 有关这个帖子,我做了一个人为的例子。我知道我可以只使用Scala的case类,并没有做任何工作可言,但是这不是我的目标。 例如,我有一个人包含一些属性,我希望能够 SELECT person.first_name从一个人。我跑入
..
我有一个数据帧与多列 STR 键入,我想一个函数适用于所有那些列,不重新命名他们的名字或添加更多的列,我尝试使用执行换的循环 withColumn (见例波纹管),但通常当我运行code,它显示了一个堆栈溢出(其作品很少),这数据帧不是很大的话,那刚刚〜15000的记录。 #df是一个数据框 高清小写字母(字符串): 返回string.strip()。低()lowerCaseUDF =
..
我有一个火花数据帧东风。有子的使用这些列的列表中选择一个几列的方式? 斯卡拉> df.columns RES0:数组[字符串] =阵列(“A”,“B”,“C”,“D”) 我知道我可以这样做 df.select(“B”,“C”)。但是假设我有一个包含一些列名的列表 VAL COLS =名单(“B”,“C”),有没有办法通过这df.select? df.select(COLS)抛出一个错误
..
我有一个数据框(火花)像下面 值id 3 0 3 1 3 0 4 1 4 0 4 0 我想创建一个像下面的新的数据帧 0 3 3 1 4 1 需要经过1(值)删除所有行每个id.I试图与火花dateframe窗口函数(斯卡拉)。但不能能够找到一个solution.Seems是我在一个错误的方向前进。 我要寻找一个在Scala.Thanks 解决方案 使用monotonically_inc
..
所以我所知在星火数据框,对于多列可以具有相同的名称如下数据帧快照所示: [ 行(A = 107831,F = SparseVector(5,{0:0.0,1:0.0,2:0.0,3:0.0,4:0.0}),A = 107831,F = SparseVector(5,{0:0.0, 1:0.0,2:0.0,3:0.0,4:0.0})) 行(A = 107831,F = SparseVector(
..
我有一个数据帧,看起来像如下: + ----------- + ----- + ------------ + |用户ID |组|功能| + ----------- + ----- + ------------ + | 12462563356 | 1 | [5.0,43.0] | | 12462563701 | 2 | [1.0,8.0] | | 12462563701 | 1 | [2.0,1
..
我一直在寻找了一段时间,如果有任何方式使用 Pyspark A 斯卡拉类,我还没有发现有关此主题的任何文件,也没有指导。 让我们说我创建斯卡拉一个简单的类,它使用 Apache的火花,类似的一些库: 类SimpleClass(sqlContext:SQLContext,DF:数据帧,列:字符串){ 高清EXE():数据帧= { 进口sqlContext.implicits._
..
我是引发一个新手,我想为转化下面的源数据帧(负载从JSON文件): + - + ----- + ----- + | A |计数|大| + - + ----- + ----- + | A | 1 | M1 | | A | 1 | M2 | | A | 2 | M3 | | A | 3 | M4 | | C | 4 | M1 | | C | 1 | M2 | | C | 2 | M3 |
..
我想一个数据帧的字符串列转换为一个列表。我可以从数据框API发现是RDD所以我试图将其转换回先RDD,然后应用功能的toArray向RDD。在这种情况下,长度和SQL工作就好了。但是,我从RDD得到的结果有这样的[A00001]每个元素围绕着方括号。我在想,如果有一列转换为一个列表或方法,以消除方括号的适当方式。 任何建议将是AP preciated。谢谢! 解决方案 这应该返回包含单列
..
我要创建的数据帧在斯卡拉指定的架构。我曾尝试使用JSON读,我的意思是看空的文件,但我不认为这是最好的做法。 解决方案 让我们假设你想用下面的模式的数据帧: 根 | - K:字符串(可为空=真) | - 五:整数(可为空= FALSE) 您只需定义架构数据帧,并使用空的 RDD [行] :进口org.apache.spark.sql.types。{ StructTy
..
使用星火1.4.0,斯卡拉2.10 我一直在试图找出一种方法来填补转发空值与一个已知的观察,但我没有看到一个简单的方法。我认为这是做一个pretty平常的事,但无法找到一个示例展示了如何做到这一点。 我看到的功能来转发填补NaN的一个值,或者滞后/超前的功能,以填补或偏移数据移出,但没有拿起最后一个已知值。 在网上看,我看到很多Q / A关于R中同样的事情,但不是在星火/斯卡拉。 我用的日
..
我有这样的code: 从pyspark进口SparkContext 从pyspark.sql进口SQLContext,行SC = SparkContext() sqlContext = SQLContext(SC) 文件= sqlContext.createDataFrame([ 行(ID = 1,标题= [行(值= u'cars',max_dist = 1000)]), 行(I
..
我创建从现有的数据帧新的数据框,但需要(在下面code“字段1”),在这个新的DF添加新列。我该怎么办呢?工作示例code例子将是AP preciated。 VAL edwDf = omniDataFrame .withColumn(“字段1”,callUDF((价值:字符串)=>无)) .withColumn(“字段2” callUdf(“devicetypeUDF”,
..
我有一个卡桑德拉表,为了简便起见看起来类似: 键:文本 jsonData:文本 blobData:BLOB 我可以创建这个火花通过一个基本的数据帧,并使用火花卡桑德拉连接器: VAL DF = sqlContext.read .format(“org.apache.spark.sql.cassandra”) 可供选项(图(“表” - >“中MYTABLE”,“密钥空间” - &
..
我们如何在一个数据帧Concat的2列? 是否有火花SQL任何功能,我们可以使用Concat的一个DF表2列。 解决方案 使用原始的SQL,您可以使用 CONCAT : 在Python DF = sqlContext.createDataFrame([(“富”,1),(“酒吧”,2),( “K”,“v”)) df.registerTempTable(“DF”) sqlConte
..
我有两个列的数据帧, ID 类型内部和 VEC 类型矢量( org.apache.spark.mllib.linalg.Vector ) 数据框看起来如下: ID,VEC 1,[0,0,5] 1,[4,0,1] 1,[1,2,1] 2,[7,5,0] 2,[3,3,4] 3,[0,8,1] 3,[0,0,1] 3,[7,7,7] .... 我愿做一个 GROUPBY($“ID”)然后由矢
..
寻找在新的火花数据帧的API,也不清楚是否有可能要修改数据帧列。 我怎么会去行 X 列是 A数据框的改变价值? 在熊猫这将是 df.ix [X,Y] = NEW_VALUE 解决方案 虽然你不能修改列正因为如此,你可以在一列操作,并返回一个新的数据框反映这种变化。对于你首先创建一个 UserDefinedFunction 实施操作申请,然后有选择地应用该功能仅目标列。在Python:
..
我有一个巨大的解析的元数据在数据框一个字符串列DF,让我们把它称为DFA,与ColmnA。 我想破此列,ColmnA成多列直通功能,ClassXYZ = func1的(ColmnA)。这个函数返回一个类ClassXYZ,多变量,每个这些变量现在必须映射到新列,这样的ColmnA1,ColmnA2等。 如何我会通过调用这个FUNC1只有一次做这样的转型,从1数据框到另一个这些附加列,不用重复,它
..
我想,因为他们似乎更层次高比RDDS并往往会产生更可读code使用星火dataframes代替RDDS,但我会更乐意来获得更多的东西惯用的建议手头的任务。 在一个14节点谷歌Dataproc集群,我有一个由两个不同的系统转换为IDS约6百万名: SA 和 SB 。每个行包含名称, id_sa 和 id_sb 。我的目标是生产从 id_sa 映射到 id_sb 使得对于每 id_sa ,相应的 i
..
我有如下生成的数据框: df.groupBy($“小时”,$“类别”) .agg(SUM($“值”)。别名(“总价值”)) 的.sort($“小时”。ASC,$“总价值”.desc)) 结果如下: + ---- + -------- + ---------- + |小时|分类|总价值| + ---- + -------- + ---------- + | 0 | cat26 | 3
..