spark-dataframe 第54页 - IT屋-程序员软件开发技术分享社区

SparkSQL引用UDT的属性

我想实现一个自定义UDT并能够从星火SQL引用它（如星火SQL白皮书解释说，第4.4.2节）。真正的例子是必须使用原头儿，或类似的场外堆数据结构支持自定义UDT。有关这个帖子，我做了一个人为的例子。我知道我可以只使用Scala的case类，并没有做任何工作可言，但是这不是我的目标。例如，我有一个人包含一些属性，我希望能够 SELECT person.first_name从一个人。我跑入 ..

发布时间：2016-05-22 15:42:20 apache-spark apache-spark-sql user-defined-types spark-dataframe 其他开发

堆栈溢出而具有UDF处理几列

我有一个数据帧与多列 STR 键入，我想一个函数适用于所有那些列，不重新命名他们的名字或添加更多的列，我尝试使用执行换的循环 withColumn （见例波纹管），但通常当我运行code，它显示了一个堆栈溢出（其作品很少），这数据帧不是很大的话，那刚刚〜15000的记录。＃df是一个数据框高清小写字母（字符串）：返回string.strip（）。低（）lowerCaseUDF = ..

发布时间：2016-05-22 15:39:12 python apache-spark pyspark spark-dataframe Python

Upacking列表以选择火花数据帧多列

我有一个火花数据帧东风。有子的使用这些列的列表中选择一个几列的方式？斯卡拉＆GT; df.columns RES0：数组[字符串] =阵列（“A”，“B”，“C”，“D”）我知道我可以这样做 df.select（“B”，“C”）。但是假设我有一个包含一些列名的列表 VAL COLS =名单（“B”，“C”），有没有办法通过这df.select？ df.select（COLS）抛出一个错误 ..

发布时间：2016-05-22 15:38:09 apache-spark apache-spark-sql spark-dataframe 其他开发

根据数据框火花斯卡拉列值过滤行

我有一个数据框（火花）像下面值id 3 0 3 1 3 0 4 1 4 0 4 0 我想创建一个像下面的新的数据帧 0 3 3 1 4 1 需要经过1（值）删除所有行每个id.I试图与火花dateframe窗口函数（斯卡拉）。但不能能够找到一个solution.Seems是我在一个错误的方向前进。我要寻找一个在Scala.Thanks 解决方案使用monotonically_inc ..

发布时间：2016-05-22 15:36:25 scala apache-spark spark-dataframe 其他开发

所以我所知在星火数据框，对于多列可以具有相同的名称如下数据帧快照所示： [ 行（A = 107831，F = SparseVector（5，{0：0.0，1：0.0，2：0.0，3：0.0，4：0.0}），A = 107831，F = SparseVector（5，{0：0.0， 1：0.0，2：0.0，3：0.0，4：0.0}））行（A = 107831，F = SparseVector（ ..

发布时间：2016-05-22 15:35:43 python apache-spark apache-spark-sql pyspark spark-dataframe Python

星火，数据框：适用于变压器/估计到组

我有一个数据帧，看起来像如下： + ----------- + ----- + ------------ + |用户ID |组|功能| + ----------- + ----- + ------------ + | 12462563356 | 1 | [5.0,43.0] | | 12462563701 | 2 | [1.0,8.0] | | 12462563701 | 1 | [2.0,1 ..

发布时间：2016-05-22 15:35:37 apache-spark spark-dataframe apache-spark-mllib apache-spark-ml 其他开发

如何使用内部Pyspark Scala的类

我一直在寻找了一段时间，如果有任何方式使用 Pyspark A 斯卡拉类，我还没有发现有关此主题的任何文件，也没有指导。让我们说我创建斯卡拉一个简单的类，它使用 Apache的火花，类似的一些库：类SimpleClass（sqlContext：SQLContext，DF：数据帧，列：字符串）{ 高清EXE（）：数据帧= { 进口sqlContext.implicits._ ..

发布时间：2016-05-22 15:32:40 python scala apache-spark pyspark spark-dataframe Python

星火数据框中变换多行列

我是引发一个新手，我想为转化下面的源数据帧（负载从JSON文件）： + - + ----- + ----- + | A |计数|大| + - + ----- + ----- + | A | 1 | M1 | | A | 1 | M2 | | A | 2 | M3 | | A | 3 | M4 | | C | 4 | M1 | | C | 1 | M2 | | C | 2 | M3 | ..

发布时间：2016-05-22 15:27:10 python apache-spark apache-spark-sql rdd spark-dataframe Python

如何转换数据框的一列中的Apache星火列表？

我想一个数据帧的字符串列转换为一个列表。我可以从数据框API发现是RDD所以我试图将其转换回先RDD，然后应用功能的toArray向RDD。在这种情况下，长度和SQL工作就好了。但是，我从RDD得到的结果有这样的[A00001]每个元素围绕着方括号。我在想，如果有一列转换为一个列表或方法，以消除方括号的适当方式。任何建议将是AP preciated。谢谢！解决方案这应该返回包含单列 ..

发布时间：2016-05-22 15:26:50 scala apache-spark apache-spark-sql spark-dataframe 其他开发

如何创建一个空的数据帧？

我要创建的数据帧在斯卡拉指定的架构。我曾尝试使用JSON读，我的意思是看空的文件，但我不认为这是最好的做法。解决方案让我们假设你想用下面的模式的数据帧：根 | - K：字符串（可为空=真） | - 五：整数（可为空= FALSE）您只需定义架构数据帧，并使用空的 RDD [行] ：进口org.apache.spark.sql.types。{ StructTy ..

发布时间：2016-05-22 15:26:44 scala apache-spark dataframe apache-spark-sql spark-dataframe 其他开发

星火/斯卡拉：与去年观察着填写

使用星火1.4.0，斯卡拉2.10 我一直在试图找出一种方法来填补转发空值与一个已知的观察，但我没有看到一个简单的方法。我认为这是做一个pretty平常的事，但无法找到一个示例展示了如何做到这一点。我看到的功能来转发填补NaN的一个值，或者滞后/超前的功能，以填补或偏移数据移出，但没有拿起最后一个已知值。在网上看，我看到很多Q / A关于R中同样的事情，但不是在星火/斯卡拉。我用的日 ..

发布时间：2016-05-22 15:22:26 scala apache-spark spark-dataframe 其他开发

数据框划分复杂排在Pyspark简单的行

我有这样的code：从pyspark进口SparkContext 从pyspark.sql进口SQLContext，行SC = SparkContext（） sqlContext = SQLContext（SC）文件= sqlContext.createDataFrame（[ 行（ID = 1，标题= [行（值= u'cars'，max_dist = 1000）]），行（I ..

发布时间：2016-05-22 15:19:00 python apache-spark pyspark apache-spark-sql spark-dataframe Python

创建空/空字段值新的数据框

我创建从现有的数据帧新的数据框，但需要（在下面code“字段1”），在这个新的DF添加新列。我该怎么办呢？工作示例code例子将是AP preciated。 VAL edwDf = omniDataFrame .withColumn（“字段1”，callUDF（（价值：字符串）=＆GT;无）） .withColumn（“字段2” callUdf（“devicetypeUDF”， ..

发布时间：2016-05-22 15:18:13 scala apache-spark apache-spark-sql spark-dataframe 其他开发

如何利用星火DataFrames查询JSON数据列？

我有一个卡桑德拉表，为了简便起见看起来类似：键：文本 jsonData：文本 blobData：BLOB 我可以创建这个火花通过一个基本的数据帧，并使用火花卡桑德拉连接器： VAL DF = sqlContext.read .format（“org.apache.spark.sql.cassandra”）可供选项（图（“表” - ＆gt;“中MYTABLE”，“密钥空间” - ＆ ..

发布时间：2016-05-22 15:17:53 scala apache-spark apache-spark-sql spark-dataframe spark-cassandra-connector 其他开发

在apache的火花数据帧串连列

我们如何在一个数据帧Concat的2列？是否有火花SQL任何功能，我们可以使用Concat的一个DF表2列。解决方案使用原始的SQL，您可以使用 CONCAT ：在Python DF = sqlContext.createDataFrame（[（“富”，1），（“酒吧”，2），（ “K”，“v”）） df.registerTempTable（“DF”） sqlConte ..

发布时间：2016-05-22 15:14:42 apache-spark spark-dataframe 其他开发

SPARK数据框：自定义的聚合函数和向量的列

我有两个列的数据帧， ID 类型内部和 VEC 类型矢量（ org.apache.spark.mllib.linalg.Vector ）数据框看起来如下： ID，VEC 1，[0,0,5] 1，[4,0,1] 1，[1,2,1] 2，[7,5,0] 2，[3,3,4] 3，[0,8,1] 3，[0,0,1] 3，[7,7,7] .... 我愿做一个 GROUPBY（$“ID”）然后由矢 ..

发布时间：2016-05-22 15:14:28 scala apache-spark spark-dataframe 其他开发

更新的火花数据框列

寻找在新的火花数据帧的API，也不清楚是否有可能要修改数据帧列。我怎么会去行 X 列是 A数据框的改变价值？在熊猫这将是 df.ix [X，Y] = NEW_VALUE 解决方案虽然你不能修改列正因为如此，你可以在一列操作，并返回一个新的数据框反映这种变化。对于你首先创建一个 UserDefinedFunction 实施操作申请，然后有选择地应用该功能仅目标列。在Python： ..

发布时间：2016-05-22 15:14:03 python apache-spark pyspark apache-spark-sql spark-dataframe Python

派生从单个列多列在Spark数据框

我有一个巨大的解析的元数据在数据框一个字符串列DF，让我们把它称为DFA，与ColmnA。我想破此列，ColmnA成多列直通功能，ClassXYZ = func1的（ColmnA）。这个函数返回一个类ClassXYZ，多变量，每个这些变量现在必须映射到新列，这样的ColmnA1，ColmnA2等。如何我会通过调用这个FUNC1只有一次做这样的转型，从1数据框到另一个这些附加列，不用重复，它 ..

发布时间：2016-05-22 15:13:28 scala apache-spark user-defined-functions apache-spark-sql spark-dataframe 其他开发

查找星火数据帧每组最大行

我想，因为他们似乎更层次高比RDDS并往往会产生更可读code使用星火dataframes代替RDDS，但我会更乐意来获得更多的东西惯用的建议手头的任务。在一个14节点谷歌Dataproc集群，我有一个由两个不同的系统转换为IDS约6百万名： SA 和 SB 。每个行包含名称， id_sa 和 id_sb 。我的目标是生产从 id_sa 映射到 id_sb 使得对于每 id_sa ，相应的 i ..

发布时间：2016-05-22 15:11:40 sql apache-spark pyspark apache-spark-sql spark-dataframe 其他开发

SPARK数据框：选择每组的第一行

我有如下生成的数据框： df.groupBy（$“小时”，$“类别”） .agg（SUM（$“值”）。别名（“总价值”））的.sort（$“小时”。ASC，$“总价值”.desc））结果如下： + ---- + -------- + ---------- + |小时|分类|总价值| + ---- + -------- + ---------- + | 0 | cat26 | 3 ..

发布时间：2016-05-22 15:11:22 scala apache-spark apache-spark-sql spark-dataframe 其他开发

spark-dataframe相关内容