apache-spark-sql相关内容
假如我这样做是这样的: VAL DF = sqlContext.load(“com.databricks.spark.csv”,地图(“路径” - >“中cars.csv”,“头” - >“中真正”)) df.printSchema()根 | - 年:字符串(可为空=真) | - 化妆:字符串(可为空=真) | - 模型:字符串(可为空=真) | - 注释:字符串(
..
我知道如何写SQL星火一个UDF: 高清belowThreshold(功率:诠释):布尔= { 返回功率P; -40 }sqlContext.udf.register(“belowThreshold”,belowThreshold _) 我可以做类似的定义聚合函数的东西吗?如何做到这一点? 有关的背景下,我想运行下面的SQL查询: VAL aggDF = sqlC
..
我们正在使用的PySpark库星火1.3.1接口。 我们有两个dataframes, documents_df:= {DOCUMENT_ID,document_text} 和 keywords_df:= {关键词} 。我们想加入这两个dataframes并返回与 {DOCUMENT_ID,关键词} 对所得数据帧,使用该keyword_df.keyword出现在document_df.docume
..
下面的例子code试图把一些情况下,对象成数据帧。在code包括外壳对象层次的定义和使用这种特质情况下类: 进口org.apache.spark {SparkContext,SparkConf} 进口org.apache.spark.sql.SQLContext密封的一些特质 案例对象atype的延伸部分 案例对象BTYPE一些延伸案例类数据(名称:字符串,T:一些)对象范例{ 高清主(
..
我有一个巨大的解析的元数据在数据框一个字符串列DF,让我们把它称为DFA,与ColmnA。 我想破此列,ColmnA成多列直通功能,ClassXYZ = func1的(ColmnA)。这个函数返回一个类ClassXYZ,多变量,每个这些变量现在必须映射到新列,这样的ColmnA1,ColmnA2等。 如何我会通过调用这个FUNC1只有一次做这样的转型,从1数据框到另一个这些附加列,不用重复,它
..
假设我们有数据帧东风由以下列: 姓名,尺寸,宽度,长度,称 现在我们要执行几个操作,比如我们希望创建一对夫妇中约含尺寸和宽度数据DataFrames的。 VAL DF1 = df.groupBy(“姓”)。AGG(SUM(“大小”)) VAL DF2 = df.groupBy(“姓”)。AGG(SUM(“宽度”)) 你可以看到,其他列,如长度没有任何地方使用。星火是足够聪明的洗
..
据
..
我一直使用星火SQL和DataFrames在星火1.4.0开始。我想自定义一个分区上DataFrames,在Scala中,但没有看到如何做到这一点。 一,我处理的数据表中包含的交易清单,按帐户,silimar下面的例子。 帐户日期类型金额 1001 2014年4月1日购买100.00 1001 2014年4月1日购买50.00 1001 2014年4月5日购买70.00 1001 2014年4
..
我如何查询复杂的类型,如地图/阵列的RDD? 例如,当我在写这个测试code: 案例类测试(名称:字符串,地图:地图[字符串,字符串]) VAL地图=地图(“你好” - >“中的世界”,“哎” - >“中有”) VAL MAP2 =地图(“你好” - >“中的人”,“哎” - >“中你”) VAL RDD = sc.parallelize(阵列(测试(“第一”,地图),
..
我想,因为他们似乎更层次高比RDDS并往往会产生更可读code使用星火dataframes代替RDDS,但我会更乐意来获得更多的东西惯用的建议手头的任务。 在一个14节点谷歌Dataproc集群,我有一个由两个不同的系统转换为IDS约6百万名: SA 和 SB 。每个行包含名称, id_sa 和 id_sb 。我的目标是生产从 id_sa 映射到 id_sb 使得对于每 id_sa ,相应的 i
..
我有如下生成的数据框: df.groupBy($“小时”,$“类别”) .agg(SUM($“值”)。别名(“总价值”)) 的.sort($“小时”。ASC,$“总价值”.desc)) 结果如下: + ---- + -------- + ---------- + |小时|分类|总价值| + ---- + -------- + ---------- + | 0 | cat26 | 3
..
我有两个字符串类型的列(用户名,朋友)的表,并为每个用户名,我要收集所有的它的朋友就一排,串连成字符串(“用户名1','friends1,friends2,friends3') 。我知道,MySQL会GROUP_CONCAT这样做,有没有什么办法与SPARK SQL做到这一点? 感谢 解决方案 不完全或简洁高效的解决方案,但你可以使用 UserDefinedAggregateFuncti
..
我想有效地选择从SparkSQL表中各个分区(实木复合地板中的S3)。但是,我看到星火打开表中的所有实木复合地板的文件证据,而不仅仅是通过过滤器。这使得即使是小规模的查询昂贵有大量的分区表。 下面是一个说明性的例子。我用SparkSQL和蜂巢metastore在S3上创建了一个简单的分区表: #使一些数据 DF = pandas.DataFrame({'PK':['一'] * 5 +'B']
..
Amazon S3的文件大小限制应该按照这个的公布,但我上传一个5G的文件时,发现了以下错误 '/mahler%2Fparquet%2Fpageview%2Fall-2014-2000%2F_temporary%2F_attempt_201410112050_0009_r_000221_2222%2Fpart-r-222.parquet' XML错误信息: < XML版本=“1.0”编码=“
..