apache-spark-sql相关内容

星火内部工作

现在是一个天星火正在进行中。星火使用Scala语言加载和执行程序,也Python和Java。 RDD用来存储数据。但是,我无法理解星火的体系结构,它是如何在内部运行。 请告诉我Spark架构以及它是如何工作的内部? 解决方案 连我一直在寻找的网站,了解星火的内部,下面是我可以学习和共享想到这里, 火花围绕弹性分布式数据集(RDD),这是可以并行操作的元件的容错集合的概念。 RDDS支持 ..
发布时间:2016-05-22 15:19:15 其他开发

处理多个文件作为独立RDD的并行

我有一种情况,有一些小的(〜300MB每个)文件被应用一定数量的操作,包括一组通过。操作看起来是这样的。 df.groupBy(....)。AGG(....) 现在对其进行处理多个文件,我可以使用通配符“/**/*.csv”但是,创建单个RDD和分区它的操作。然而,看着操作,它是一组通过,并涉及大量的洗牌,如果这些文件是互相排斥的是不必要的。 什么,我看到的是,这是一种在那里我可以在文件创建 ..
发布时间:2016-05-22 15:18:50 其他开发

创建空/空字段值新的数据框

我创建从现有的数据帧新的数据框,但需要(在下面code“字段1”),在这个新的DF添加新列。我该怎么办呢?工作示例code例子将是AP preciated。 VAL edwDf = omniDataFrame .withColumn(“字段1”,callUDF((价值:字符串)=>无)) .withColumn(“字段2” callUdf(“devicetypeUDF”, ..
发布时间:2016-05-22 15:18:13 其他开发

如何使用JDBC源写入和读取(PY)火花数据?

这个问题的目标是文档: 读写使用PySpark JDBC连接数据所需的步骤 可能的JDBC源的问题和解决方案的了解 使用小的变化,这些方法应与其他支持的语言包括Scala和R.工作 解决方案 将数据写入 包括适用的JDBC驱动程序,当你递交申请或启动外壳。您可以使用例如 - 包: 斌/ pyspark --packages组:名称:版本 或组合驱动程序类路径和 ..
发布时间:2016-05-22 15:18:02 Python

如何利用星火DataFrames查询JSON数据列?

我有一个卡桑德拉表,为了简便起见看起来类似: 键:文本 jsonData:文本 blobData:BLOB 我可以创建这个火花通过一个基本的数据帧,并使用火花卡桑德拉连接器: VAL DF = sqlContext.read .format(“org.apache.spark.sql.cassandra”) 可供选项(图(“表” - >“中MYTABLE”,“密钥空间” - & ..

星火从行提取值

我有以下数据框中 VAL transactions_with_counts = sqlContext.sql( “”“选择USER_ID AS USER_ID,AS CATEGORY_ID CATEGORY_ID, COUNT(CATEGORY_ID)FROM交易GROUP BY user_ID的,CATEGORY_ID“”“) 我想要的行评对象转换,但由于X(0)返回一个数组失败 ..
发布时间:2016-05-22 15:17:49 其他开发

如何创建从UDF定制变压器?

我试图创建和保存的管道定制阶段。我需要添加一个列我的数据帧使用 UDF 。因此,我想知道是否有可能转换 UDF 或类似的操作成变压器? 我的自定义 UDF 看起来是这样的,我想学习如何使用 UDF 为做到这一点一个自定义的变压器。 高清getFeatures(N:字符串)= { VAL NUMBER_FEATURES = 4 VAL名称= n.split(“+”)(0).toL ..
发布时间:2016-05-22 15:17:42 其他开发

恩code和装配在PySpark多种功能

我有我使用加载和处理星火一些数据的Python类。在我需要做的各种事情,我从生成各列在Spark数据帧导出虚拟变量列表。我的问题是我不知道如何正确定义一个用户定义的函数来完成我所需要的。 我的做的目前有,当映射了潜在的数据帧RDD,解决了一半的问题(请记住,这是一个方法的方法更大的 data_processor ​​类): 高清build_feature_arr(个体经营,表): #这 ..
发布时间:2016-05-22 15:16:54 Python

火花数据框&QUOT的使用;为"方法

我在看 spark.sql.DataFrame 文档。 有 为高清(别名:字符串):数据帧 返回与别名设置一个新的数据帧。 以来 1.3.0 什么是这种方法的目的是什么?它是如何使用的?能有一个例子吗? 我还没有成功地在网上找到有关此方法的任何和文档是pretty不存在。我还没有设法使任何类型的使用这种方法的别名。 解决方案 星火< = 1.5 ..
发布时间:2016-05-22 15:15:43 其他开发

什么是Apache的星火S​​QLContext VS HiveContext区别?

什么是Apache的星火S​​QLContext和HiveContext之间的区别是什么? 有消息说,由于HiveContext是SQLContext开发的超集应始终使用HiveContext具有比SQLContext更多的功能。但是每上下文的当前API的大多是一样的。 什么是它SQLContext / HiveContext是比较有用的场景? 是HiveContext更有益与蜂巢的工作 ..
发布时间:2016-05-22 15:14:59 其他开发

星火:为什么我要明确地告诉缓存什么呢?

在火花,我们每次做上RDD任何操作时,RDD重新计算。所以,如果我们知道的是,RDD是要重复使用更多的,我们应该明确缓存RDD。 让我们说,星火决定懒洋洋地缓存所有RDDS并采用LRU自动保存在内存中最相关的RDDS(这是大多数缓存是如何工作的任何方式)。这将是对开发商有很大的帮助,因为他没有考虑缓存和专注于应用程序。也看不到它如何产生负面的性能产生影响,因为它是难以跟踪,多少时间的变量(RDD ..

数据框,指明分数zipWithIndex

我试图解决增加一个序列号到数据集的老问题。我与DataFrames工作,而且似乎不等同于数据帧 RDD.zipWithIndex 。在另一方面,下面的工作或多或少我希望它的方式: VAL origDF = sqlContext.load(...)VAL seqDF = sqlContext.createDataFrame( origDF.rdd.zipWithIndex.map(LN ..
发布时间:2016-05-22 15:14:09 其他开发

更新的火花数据框列

寻找在新的火花数据帧的API,也不清楚是否有可能要修改数据帧列。 我怎么会去行 X 列是 A数据框的改变价值? 在熊猫这将是 df.ix [X,Y] = NEW_VALUE 解决方案 虽然你不能修改列正因为如此,你可以在一列操作,并返回一个新的数据框反映这种变化。对于你首先创建一个 UserDefinedFunction 实施操作申请,然后有选择地应用该功能仅目标列。在Python: ..
发布时间:2016-05-22 15:14:03 Python