apache-spark-dataset相关内容

Spark Dataset mapGroups操作后,值类型为二进制,甚至在函数中返回String

环境: Spark版本:2.3.0运行模式:本地Java版本:Java 8 spark应用程序尝试执行以下操作 1)将输入数据转换为数据集[GenericRecord] 2)按GenericRecord的关键属性分组 3)组后使用mapGroups迭代值列表并以String格式获取一些结果 4)在文本文件中将结果输出为字符串. 写入文本文件时发生错误.Spar ..

Spark Excel:使用多行标头读取Excel文件会引发异常:方法抛出"scala.MatchError"异常

我正在使用 spark-excel 来读取Excel文件,问题出在我什么时候如果使用具有多行标头的文件,则数据集的QueryExecution会引发异常 Method引发了'scala.MatchError'异常.无法评估org.apache.spark.sql.execution.QueryExecution.toString() 目前唯一的解决方案是用一行替换多行标题,我也尝试使用 wi ..
发布时间:2021-04-08 20:22:52 Java开发

如何将Encoder作为参数传递给数据框的as方法

我想通过使用不同的大小写类将dataFrame转换为dataSet.现在,我的代码如下所示. 案例类视图(视图:Double)案例类点击次数(点击次数:两次)def convertViewsDFtoDS(df:DataFrame){df.as [观看次数]}def convertClicksDFtoDS(df:DataFrame){df.as [点击次数]} 所以,我的问题是“无论如何,我可 ..

遍历Dataset中具有键值对数组的列,并找出具有最大值的对

我有一个数据帧中的数据,该数据帧是从azure eventhub获得的.然后,我将这些数据转换为json对象,并将所需的数据存储到数据集中,如下所示. 用于从eventhub获取数据并将其存储到数据帧中的代码. val connectionString = ConnectionStringBuilder().setEventHubName( ..

在Apache Spark Dataset< Row>上应用flatMap操作时出现意外的编码器行为.

我正在尝试将实际上包含双精度值的csv字符串转换为spark-ml兼容的数据集.由于我事先不知道要预期的功能数量,因此我决定使用一个帮助器类“实例",该类已经包含了分类器要使用的正确数据类型,并且在某些其他情况下已经可以按预期工作: 公共类实例实现Serializable {/****/私有静态最终长serialVersionUID = 6091606543088855593L;私有Vector ..
发布时间:2021-04-08 19:59:56 Java开发

将案例类传递给函数参数

很抱歉提出一个简单的问题.我想将case类传递给函数参数,并且想在函数内部进一步使用它.到现在为止,我已经使用 TypeTag 和 ClassTag 进行了尝试,但是由于某种原因,我无法正确使用它,或者可能是因为我不在正确的位置. 用例与此类似: 案例类infoData(colA:Int,colB:String)案例类someOtherData(col1:String,col2:String, ..