apache-spark-sql相关内容
所以,我一直在使用SBT与组装打包我所有的依赖关系为我工作的火花一个罐子。我有我在那里用C3P0设置连接池的信息几项工作,播出了出来,然后用foreachPartition的RDD来再抓一个连接,并且将数据插入到数据库。在我的SBT构建脚本,我包括 “MySQL的”%“的MySQL连接器-java的”%“5.1.33” 这确保了JDBC连接器打包的工作。一切都很正常。 所以,最近我开始与火花
..
我需要定义数据框自定义方法。有什么更好的方式来做到这一点?该解决方案应该是可扩展的,因为我打算定义的定制方法显著数量。 我目前的做法是创建一个类(比如 MyClass的)使用数据帧为参数,定义我的自定义方法在(比如 customMethod ),并定义哪些数据帧转换成 MyClass的。 隐高清dataFrametoMyClass(DF:数据帧):MyClass的=新MyClass的(DF)
..
当我通过执行查询的SQL火花提交和火花-SQL,相应的火花应用程序始终失败,错误如下: 15/03/10 18时五十分52秒INFO util.AkkaUtils:连接到HeartbeatReceiver:akka.tcp:// @ sparkDriver slave75:60697 /用户/ HeartbeatReceiver 15/03/10 18点52分08秒错误executor.Coa
..
...通过检查列的值是否在 SEQ 。结果 也许我没有解释这很好,我基本上要这样(能恩preSS使用常规的SQL吧): DF_Column序列 首先,我做了它使用的是广播VAR (其中我把SEQ), UDF (即做了检查), registerTempTable 。结果 问题是,我没有测试它,因为我遇到了一个已知的bug ,显然只使用 registerTempTable 用时会出现的 Scal
..
是否有提供联合分区连接星火SQL数据源中的任何实现的 - 最有可能通过CoGroupRDD?我没看到现有的星火codeBase类中的任何用途。 的动机将大大减少在这两个表中有相同数量和分区键的范围相同的情况下,洗牌交通:在这种情况下会有一个 MX1 ,而不是 M×N个洗牌扇出。 唯一的大规模实施连接presently在星火SQL似乎 ShuffledHashJoin 的 - 其中确实的需要的M
..
我减少的维度一个星火与pyspark数据帧与 PCA 模式(使用火花 毫升库)如下: PCA = PCA(K = 3,inputCol =“特色”,outputCol =“pca_features”) 模型= pca.fit(数据) 其中,数据是星火数据帧有一列labed 功能至极是 DenseVector : data.take(1) 行(功能= DenseVector([0.4536,
..
我试图用星火ML API 运行随机森林分类,但我有与创建正确的数据帧输入到管道的问题。 下面是样本数据: 年龄,hours_per_week,教育,性别,salaryRange 38,40,“HS-毕业生”,“男性”,“A” 28,40,“单身汉”,“女性”,“A” 52,45,“HS-毕业生”,“男性”,“B” 31,50,“主人”,“女性”,“B” 42,40,“单身汉”,“男性”,“B”
..
我有一个数据帧,我希望将数据汇总到7天做一些聚集上的一些功能。 我有一个pyspark SQL数据帧像------ SALE_DATE | P_1 | P_2 | P_3 | G_1 | G_2 | G_3 | Total_Sale | Sale_Amt | Promo_Disc_Amt || 2013年4月10日| 1 | 9 | 1 | 1 | 1 | 1 | 1 | 295.0 | 0
..
我是引发一个新手,我想为转化下面的源数据帧(负载从JSON文件): + - + ----- + ----- + | A |计数|大| + - + ----- + ----- + | A | 1 | M1 | | A | 1 | M2 | | A | 2 | M3 | | A | 3 | M4 | | C | 4 | M1 | | C | 1 | M2 | | C | 2 | M3 |
..
我是新来的Python中使用Spark和一直未能解决这个问题:运行后 GROUPBY 在 pyspark.sql.dataframe .DataFrame DF = sqlsc.read.json(“data.json”) df.groupBy('teamId') 您如何可以选择 N 每个结果组(由teamId分组)随机抽样不更换? 基本上,我试图从各队选择 N 随机的用户,也许使用 GR
..
在一个集群上运行sparkJob过去某些数据的大小(〜2,5gb)我正在和“执行人丢失”或者“取消,因为SparkContext被关闭作业”。当纱线GUI找我看到被杀害的工作是成功的。上是500MB的数据中运行时不存在任何问题。我一直在寻找一个解决方案,并发现: - “似乎纱杀死一些执行者,他们要求更多的内存比预期的” 任何建议如何调试它? 命令,我提出我的火花与工作: /opt/spa
..
我想一个数据帧的字符串列转换为一个列表。我可以从数据框API发现是RDD所以我试图将其转换回先RDD,然后应用功能的toArray向RDD。在这种情况下,长度和SQL工作就好了。但是,我从RDD得到的结果有这样的[A00001]每个元素围绕着方括号。我在想,如果有一列转换为一个列表或方法,以消除方括号的适当方式。 任何建议将是AP preciated。谢谢! 解决方案 这应该返回包含单列
..
我要创建的数据帧在斯卡拉指定的架构。我曾尝试使用JSON读,我的意思是看空的文件,但我不认为这是最好的做法。 解决方案 让我们假设你想用下面的模式的数据帧: 根 | - K:字符串(可为空=真) | - 五:整数(可为空= FALSE) 您只需定义架构数据帧,并使用空的 RDD [行] :进口org.apache.spark.sql.types。{ StructTy
..
我有一个火花(1.4.1版)的应用上HDP 2.3。纱线客户端模式下运行时,它工作正常。然而,纱线群集模式没有我的蜂巢表运行时,它可以通过应用程序被发现。 我递交申请,像这样: ./斌/火花提交 --class com.myCompany.Main --master纱线集群 --num-执行人3 --driver-4G内存 --executor内存10
..
我有一个数据框的Spark看起来像: | ID |值|斌| | ---- + ------- + ----- | | 1 | 3.4 | 2 | | 2 | 2.6 | 1 | | 3 | 1.8 | 1 | | 4 | 9.6 | 2 | 我有一个函数˚F的取值数组,并返回一个数字。我想列添加到上面的数据帧中的每一行的新列中的值 F的的价值为所有的值具有相同斌项,即条目: | ID |值
..
我也问过这个问题,previously也,但没有得到任何答复(
..
有没有应用集合函数来所有(或清单)的数据帧列的方式,做一组时?换句话说,是有办法避免这样做的每一列: df.groupBy(“COL1”) .agg(SUM(“COL2”)。别名(“COL2”)和(“COL3”)。别名(“COL3”),...) 非常感谢! 解决方案 有将集合函数应用于多个列的多种方式。 GroupedData 类提供了最常用的功能了一些方法,包括计数,最大,分,的
..
我试图使用数据的砖块下面的数据,这是响应返回null过滤器的时间范围。 我的CSV数据是这样的: ID,说明,Week_Ending_Date 100,AAA,13-06-2015 101,BBB,2015年11月7日 102,CCC,15-08-2015 103,国内长途,2015年5月9日 100,AAA,29-08-2015 100,AAA,22-08-2015 我的查询是: df
..
我有我已经从csv取并转换成一个数据帧,以利用SparkSQL查询功能,用户登录。单个用户将创建每小时众多的条目,我想收集每个用户的一些基本统计资料;实际上只是用户实例的计数,平均,和许多列的标准偏差。我能够很快得到均值和使用GROUPBY计数信息($“用户”),并与SparkSQL功能数和平均聚合器: VAL meanData = selectedData.groupBy($“用户”)。AG
..
我想创建一个从星火v.1.6(使用Scala)数据帧一个JSON。我知道有这样做的简单的解决方案 df.toJSON 。 不过,我的问题看起来有点不同。例如考虑用下面列的数据框: | A | C | C1 | C2 | C3 | ------------------------------------------- | 1 |测试| AB | 22 | TRUE | | 2 | mytest
..