apache-spark-sql相关内容

如何更改列类型在SQL星火的数据帧?

假如我这样做是这样的: VAL DF = sqlContext.load(“com.databricks.spark.csv”,地图(“路径” - >“中cars.csv”,“头” - >“中真正”)) df.printSchema()根 | - 年:字符串(可为空=真) | - 化妆:字符串(可为空=真) | - 模型:字符串(可为空=真) | - 注释:字符串( ..
发布时间:2016-05-22 15:13:58 其他开发

如何定义在星火SQL自定义类型的模式?

下面的例子code试图把一些情况下,对象成数据帧。在code包括外壳对象层次的定义和使用这种特质情况下类: 进口org.apache.spark {SparkContext,SparkConf} 进口org.apache.spark.sql.SQLContext密封的一些特质 案例对象atype的延伸部分 案例对象BTYPE一​​些延伸案例类数据(名称:字符串,T:一些)对象范例{ 高清主( ..
发布时间:2016-05-22 15:13:37 其他开发

派生从单个列多列在Spark数据框

我有一个巨大的解析的元数据在数据框一个字符串列DF,让我们把它称为DFA,与ColmnA。 我想破此列,ColmnA成多列直通功能,ClassXYZ = func1的(ColmnA)。这个函数返回一个类ClassXYZ,多变量,每个这些变量现在必须映射到新列,这样的ColmnA1,ColmnA2等。 如何我会通过调用这个FUNC1只有一次做这样的转型,从1数据框到另一个这些附加列,不用重复,它 ..

数据帧GROUPBY行为/优化

假设我们有数据帧东风由以下列: 姓名,尺寸,宽度,长度,称 现在我们要执行几个操作,比如我们希望创建一对夫妇中约含尺寸和宽度数据DataFrames的。 VAL DF1 = df.groupBy(“姓”)。AGG(SUM(“大小”)) VAL DF2 = df.groupBy(“姓”)。AGG(SUM(“宽度”)) 你可以看到,其他列,如长度没有任何地方使用。星火是足够聪明的洗 ..
发布时间:2016-05-22 15:12:43 其他开发

如何定义一个数据框星火的划分?

我一直使用星火SQL和DataFrames在星火1.4.0开始。我想自定义一个分区上DataFrames,在Scala中,但没有看到如何做到这一点。 一,我处理的数据表中包含的交易清单,按帐户,silimar下面的例子。 帐户日期类型金额 1001 2014年4月1日购买100.00 1001 2014年4月1日购买50.00 1001 2014年4月5日购买70.00 1001 2014年4 ..
发布时间:2016-05-22 15:12:14 其他开发

星火查询SQL数据框与复杂类型

我如何查询复杂的类型,如地图/阵列的RDD? 例如,当我在写这个测试code: 案例类测试(名称:字符串,地图:地图[字符串,字符串]) VAL地图=地图(“你好” - >“中的世界”,“哎” - >“中有”) VAL MAP2 =地图(“你好” - >“中的人”,“哎” - >“中你”) VAL RDD = sc.parallelize(阵列(测试(“第一”,地图), ..
发布时间:2016-05-22 15:11:49 其他开发

查找星火数据帧每组最大行

我想,因为他们似乎更层次高比RDDS并往往会产生更可读code使用星火dataframes代替RDDS,但我会更乐意来获得更多的东西惯用的建议手头的任务。 在一个14节点谷歌Dataproc集群,我有一个由两个不同的系统转换为IDS约6百万名: SA 和 SB 。每个行包含名称, id_sa 和 id_sb 。我的目标是生产从 id_sa 映射到 id_sb 使得对于每 id_sa ,相应的 i ..

SPARK SQL替代MySQL的GROUP_CONCAT聚合函数

我有两个字符串类型的列(用户名,朋友)的表,并为每个用户名,我要收集所有的它的朋友就一排,串连成字符串(“用户名1','friends1,friends2,friends3') 。我知道,MySQL会GROUP_CONCAT这样做,有没有什么办法与SPARK SQL做到这一点? 感谢 解决方案 不完全或简洁高效的解决方案,但你可以使用 UserDefinedAggregateFuncti ..
发布时间:2016-05-22 15:11:12 其他开发

分区不能被修剪简单SparkSQL查询

我想有效地选择从SparkSQL表中各个分区(实木复合地板中的S3)。但是,我看到星火打开表中的所有实木复合地板的文件证据,而不仅仅是通过过滤器。这使得即使是小规模的查询昂贵有大量的分区表。 下面是一个说明性的例子。我用SparkSQL和蜂巢metastore在S3上创建了一个简单的分区表: #使一些数据 DF = pandas.DataFrame({'PK':['一'] * 5 +'B'] ..
发布时间:2015-12-01 10:35:23 云存储