apache-spark-sql 第241页 - IT屋-程序员软件开发技术分享社区

如何更改列类型在SQL星火的数据帧？

假如我这样做是这样的： VAL DF = sqlContext.load（“com.databricks.spark.csv”，地图（“路径” - ＆gt;“中cars.csv”，“头” - ＆gt;“中真正”）） df.printSchema（）根 | - 年：字符串（可为空=真） | - 化妆：字符串（可为空=真） | - 模型：字符串（可为空=真） | - 注释：字符串（ ..

发布时间：2016-05-22 15:13:58 scala apache-spark apache-spark-sql 其他开发

我如何定义和星火SQL中使用用户定义的聚合函数？

我知道如何写SQL星火一个UDF：高清belowThreshold（功率：诠释）：布尔= { 返回功率P; -40 }sqlContext.udf.register（“belowThreshold”，belowThreshold _）我可以做类似的定义聚合函数的东西吗？如何做到这一点？有关的背景下，我想运行下面的SQL查询： VAL aggDF = sqlC ..

发布时间：2016-05-22 15:13:45 scala apache-spark apache-spark-sql 其他开发

我们怎样才能使用SQL式的＆QUOT 2星火SQL dataframes;喜欢＆QUOT;标准？

我们正在使用的PySpark库星火1.3.1接口。我们有两个dataframes， documents_df：= {DOCUMENT_ID，document_text} 和 keywords_df：= {关键词} 。我们想加入这两个dataframes并返回与 {DOCUMENT_ID，关键词} 对所得数据帧，使用该keyword_df.keyword出现在document_df.docume ..

发布时间：2016-05-22 15:13:42 python apache-spark apache-spark-sql pyspark Python

如何定义在星火SQL自定义类型的模式？

下面的例子code试图把一些情况下，对象成数据帧。在code包括外壳对象层次的定义和使用这种特质情况下类：进口org.apache.spark {SparkContext，SparkConf} 进口org.apache.spark.sql.SQLContext密封的一些特质案例对象atype的延伸部分案例对象BTYPE一些延伸案例类数据（名称：字符串，T：一些）对象范例{ 高清主（ ..

发布时间：2016-05-22 15:13:37 scala apache-spark apache-spark-sql case-class 其他开发

派生从单个列多列在Spark数据框

我有一个巨大的解析的元数据在数据框一个字符串列DF，让我们把它称为DFA，与ColmnA。我想破此列，ColmnA成多列直通功能，ClassXYZ = func1的（ColmnA）。这个函数返回一个类ClassXYZ，多变量，每个这些变量现在必须映射到新列，这样的ColmnA1，ColmnA2等。如何我会通过调用这个FUNC1只有一次做这样的转型，从1数据框到另一个这些附加列，不用重复，它 ..

发布时间：2016-05-22 15:13:28 scala apache-spark user-defined-functions apache-spark-sql spark-dataframe 其他开发

数据帧GROUPBY行为/优化

假设我们有数据帧东风由以下列：姓名，尺寸，宽度，长度，称现在我们要执行几个操作，比如我们希望创建一对夫妇中约含尺寸和宽度数据DataFrames的。 VAL DF1 = df.groupBy（“姓”）。AGG（SUM（“大小”）） VAL DF2 = df.groupBy（“姓”）。AGG（SUM（“宽度”））你可以看到，其他列，如长度没有任何地方使用。星火是足够聪明的洗 ..

发布时间：2016-05-22 15:12:43 performance apache-spark apache-spark-sql 其他开发

请问火花predicate下推工作，JDBC？

据 ..

发布时间：2016-05-22 15:12:33 python jdbc apache-spark apache-spark-sql pyspark Python

如何定义一个数据框星火的划分？

我一直使用星火SQL和DataFrames在星火1.4.0开始。我想自定义一个分区上DataFrames，在Scala中，但没有看到如何做到这一点。一，我处理的数据表中包含的交易清单，按帐户，silimar下面的例子。帐户日期类型金额 1001 2014年4月1日购买100.00 1001 2014年4月1日购买50.00 1001 2014年4月5日购买70.00 1001 2014年4 ..

发布时间：2016-05-22 15:12:14 scala apache-spark dataframe apache-spark-sql 其他开发

星火查询SQL数据框与复杂类型

我如何查询复杂的类型，如地图/阵列的RDD？例如，当我在写这个测试code：案例类测试（名称：字符串，地图：地图[字符串，字符串]） VAL地图=地图（“你好” - ＆gt;“中的世界”，“哎” - ＆gt;“中有”） VAL MAP2 =地图（“你好” - ＆gt;“中的人”，“哎” - ＆gt;“中你”） VAL RDD = sc.parallelize（阵列（测试（“第一”，地图）， ..

发布时间：2016-05-22 15:11:49 scala apache-spark apache-spark-sql 其他开发

查找星火数据帧每组最大行

我想，因为他们似乎更层次高比RDDS并往往会产生更可读code使用星火dataframes代替RDDS，但我会更乐意来获得更多的东西惯用的建议手头的任务。在一个14节点谷歌Dataproc集群，我有一个由两个不同的系统转换为IDS约6百万名： SA 和 SB 。每个行包含名称， id_sa 和 id_sb 。我的目标是生产从 id_sa 映射到 id_sb 使得对于每 id_sa ，相应的 i ..

发布时间：2016-05-22 15:11:40 sql apache-spark pyspark apache-spark-sql spark-dataframe 其他开发

SPARK数据框：选择每组的第一行

我有如下生成的数据框： df.groupBy（$“小时”，$“类别”） .agg（SUM（$“值”）。别名（“总价值”））的.sort（$“小时”。ASC，$“总价值”.desc））结果如下： + ---- + -------- + ---------- + |小时|分类|总价值| + ---- + -------- + ---------- + | 0 | cat26 | 3 ..

发布时间：2016-05-22 15:11:22 scala apache-spark apache-spark-sql spark-dataframe 其他开发

SPARK SQL替代MySQL的GROUP_CONCAT聚合函数

我有两个字符串类型的列（用户名，朋友）的表，并为每个用户名，我要收集所有的它的朋友就一排，串连成字符串（“用户名1'，'friends1，friends2，friends3'）。我知道，MySQL会GROUP_CONCAT这样做，有没有什么办法与SPARK SQL做到这一点？感谢解决方案不完全或简洁高效的解决方案，但你可以使用 UserDefinedAggregateFuncti ..

发布时间：2016-05-22 15:11:12 apache-spark aggregate-functions apache-spark-sql 其他开发

分区不能被修剪简单SparkSQL查询

我想有效地选择从SparkSQL表中各个分区（实木复合地板中的S3）。但是，我看到星火打开表中的所有实木复合地板的文件证据，而不仅仅是通过过滤器。这使得即使是小规模的查询昂贵有大量的分区表。下面是一个说明性的例子。我用SparkSQL和蜂巢metastore在S3上创建了一个简单的分区表：＃使一些数据 DF = pandas.DataFrame（{'PK'：['一'] * 5 +'B'] ..

发布时间：2015-12-01 10:35:23 amazon-s3 apache-spark apache-spark-sql pyspark parquet 云存储

当上传一个5G的文件到Amazon S3 EntityTooLarge错误

Amazon S3的文件大小限制应该按照这个的公布，但我上传一个5G的文件时，发现了以下错误 '/mahler%2Fparquet%2Fpageview%2Fall-2014-2000%2F_temporary%2F_attempt_201410112050_0009_r_000221_2222%2Fpart-r-222.parquet' XML错误信息：＆LT; XML版本=“1.0”编码=“ ..

发布时间：2015-12-01 10:22:23 amazon-s3 apache-spark jets3t parquet apache-spark-sql 云存储

apache-spark-sql相关内容