apache-spark-dataset 第5页 - IT屋-程序员软件开发技术分享社区

Spark Dataset mapGroups操作后，值类型为二进制，甚至在函数中返回String

环境: Spark版本:2.3.0运行模式:本地Java版本:Java 8 spark应用程序尝试执行以下操作 1)将输入数据转换为数据集[GenericRecord] 2)按GenericRecord的关键属性分组 3)组后使用mapGroups迭代值列表并以String格式获取一些结果 4)在文本文件中将结果输出为字符串. 写入文本文件时发生错误.Spar ..

发布时间：2021-04-08 20:24:11 apache-spark apache-spark-dataset spark-avro apache-spark-encoders 其他开发

Spark Excel:使用多行标头读取Excel文件会引发异常:方法抛出"scala.MatchError"异常

我正在使用 spark-excel 来读取Excel文件，问题出在我什么时候如果使用具有多行标头的文件，则数据集的QueryExecution会引发异常 Method引发了'scala.MatchError'异常.无法评估org.apache.spark.sql.execution.QueryExecution.toString() 目前唯一的解决方案是用一行替换多行标题，我也尝试使用 wi ..

发布时间：2021-04-08 20:22:52 java apache-spark apache-spark-dataset spark-excel Java开发

Spark SQL列操作

我有一个数据集，该数据集的下方低于下方. df.show();+ -------- + --------- + --------- + --------- + --------- +|Col1 |Col2 |支出1 |支出2 |支出3 |+ -------- + --------- + --------- + --------- + --------- +|值1 |Cvalue1 |123 | ..

发布时间：2021-04-08 20:20:34 apache-spark dataframe apache-spark-sql apache-spark-dataset 其他开发

如何在Spark Dataset中存储嵌套的自定义对象?

问题是“>如何在数据集中存储自定义对象的后续措施? 火花版本:3.0.1 可以实现非嵌套的自定义类型: 导入spark.implicits._导入org.apache.spark.sql.{编码器，编码器}类AnObj(val a:Int，val b:String)隐式val myEncoder:Encoder [AnObj] = Encoders.kryo [AnObj]val d ..

发布时间：2021-04-08 20:14:04 apache-spark apache-spark-sql apache-spark-dataset kryo 其他开发

Spark Dataset中的SortedMap不可序列化错误

似乎scala.collection.SortedMap无法序列化? 简单的代码示例: 案例类MyClass(s:scala.collection.SortedMap [String，String] = SortedMap [String，String]())对象MyClass {def apply(i:Int):MyClass = MyClass()}导入sparkSession.i ..

发布时间：2021-04-08 20:11:19 scala apache-spark apache-spark-dataset 其他开发

如何将Encoder作为参数传递给数据框的as方法

我想通过使用不同的大小写类将dataFrame转换为dataSet.现在，我的代码如下所示. 案例类视图(视图:Double)案例类点击次数(点击次数:两次)def convertViewsDFtoDS(df:DataFrame){df.as [观看次数]}def convertClicksDFtoDS(df:DataFrame){df.as [点击次数]} 所以，我的问题是“无论如何，我可 ..

发布时间：2021-04-08 20:10:43 scala apache-spark apache-spark-sql apache-spark-dataset apache-spark-encoders 其他开发

遍历Dataset中具有键值对数组的列，并找出具有最大值的对

我有一个数据帧中的数据，该数据帧是从azure eventhub获得的.然后，我将这些数据转换为json对象，并将所需的数据存储到数据集中，如下所示. 用于从eventhub获取数据并将其存储到数据帧中的代码. val connectionString = ConnectionStringBuilder().setEventHubName( ..

发布时间：2021-04-08 20:06:47 dataframe apache-spark apache-spark-sql apache-spark-dataset 其他开发

Dataset.reduce不支持速记功能

我有一个简单的代码: test("0153"){val c = Seq(1,8,4,2,7)val max =(x:Int，y:Int)=>如果(x> y)x其他yc.reduce(最大)} 工作正常.但是，当我按照相同的方式使用 Dataset.reduce 时， test("SparkSQLTest"){def max(x:Int，y:Int)=如果(x> y)x else yva ..

发布时间：2021-04-08 20:03:21 scala apache-spark apache-spark-sql apache-spark-dataset 其他开发

在Apache Spark Dataset< Row>上应用flatMap操作时出现意外的编码器行为.

我正在尝试将实际上包含双精度值的csv字符串转换为spark-ml兼容的数据集.由于我事先不知道要预期的功能数量，因此我决定使用一个帮助器类“实例"，该类已经包含了分类器要使用的正确数据类型，并且在某些其他情况下已经可以按预期工作: 公共类实例实现Serializable {/****/私有静态最终长serialVersionUID = 6091606543088855593L;私有Vector ..

发布时间：2021-04-08 19:59:56 java apache-spark apache-spark-dataset Java开发

如何在Spark DataFrame/DataSet中将行拆分为不同的列?

假设我的数据集如下: 名称|主题|Y1 |Y2A |数学|1998 |2000B ||1996 |1999年|科学|2004 |2005年我想拆分此数据集的行，以便像这样消除Y2列: 名称|主题|Y1A |数学|1998年A |数学|1999年A |数学|2000B ||1996年B ||1997年B ||1998年B ||1999年|科学|2004年|科学|2005年有人可以在这 ..

发布时间：2021-04-08 19:58:36 apache-spark spark-dataframe apache-spark-dataset 其他开发

Spark UDF无法在Double字段中使用空值

我正在尝试编写一个火花UDF，将Double字段的空值替换为0.0.我正在使用数据集API.这是UDF: val coalesceToZero = udf((rate:Double)=> if(Option(rate).isDefined)rate else 0.0) 这基于我测试正常运行的以下功能: def cz(value:Double):Double = if(Option(va ..

发布时间：2021-04-08 19:53:55 scala apache-spark apache-spark-dataset 其他开发

在Spark数据集中对数字字符串进行排序

让我们假设我具有以下 Dataset : + ----------- + ---------- +|产品代码|金额|+ ----------- + ---------- +|XX-13 |300 ||XX-1 |250 ||XX-2 |410 ||XX-9 |50 ||XX-10 |35 ||XX-100 |870 |+ ----------- + ---------- + 其中 prod ..

发布时间：2021-04-08 19:53:01 scala apache-spark apache-spark-dataset 其他开发

如何通过转换为RDD在Spark Dataset中保存嵌套或JSON对象?

我正在处理Spark代码，其中我必须将多个列值保存为对象格式并将结果保存到mongodb 给出数据集 | --- | --------- | ------ | ---------- || A | A_SRC |过去_ |过去_SRC || --- | --------- | ------ | ---------- || a1 |s1 |a2 |s2 | 我尝试过的 val ds ..

发布时间：2021-04-08 19:46:58 java apache-spark apache-spark-dataset Java开发

如何将Map列添加到Spark数据集?

我有一个Java Map 变量，例如 MapsingleColMap .我想将此 Map 变量添加到数据集中，作为Spark 2.2(Java 1.8)中的新列值. 我尝试了以下代码，但无法正常工作: ds.withColumn("cMap"，lit(singleColMap).cast(MapType(StringType，StringType))) ..

发布时间：2021-04-08 19:46:37 java scala apache-spark dictionary apache-spark-dataset Java开发

将案例类传递给函数参数

很抱歉提出一个简单的问题.我想将case类传递给函数参数，并且想在函数内部进一步使用它.到现在为止，我已经使用 TypeTag 和 ClassTag 进行了尝试，但是由于某种原因，我无法正确使用它，或者可能是因为我不在正确的位置. 用例与此类似: 案例类infoData(colA:Int，colB:String)案例类someOtherData(col1:String，col2:String， ..

发布时间：2021-04-08 19:45:02 scala apache-spark apache-spark-dataset case-class classtag 其他开发

如何将JavaPairRDD转换为数据集?

SparkSession.createDataset()仅允许 List，RDD或Seq -但不支持 JavaPairRDD . 因此，如果我有一个要从中创建 Dataset 的 JavaPairRDD ，则对于 SparkSession.createDataset()限制，以创建包含两个字段的包装器 UserMap 类: String 和 User . 然 ..

发布时间：2021-04-08 19:43:20 java apache-spark rdd apache-spark-dataset Java开发

使用带有选项字段的案例类将数据框转换为数据集

我有以下案例类: 案例类Person(名称:字符串，姓:Option [String] =无，年龄:BigInt){} 以及以下json: {"name":"bemjamin"，"age":1} 当我尝试将数据框转换为数据集时: spark.read.json("example.json").as [Person] .show() 它显示了以下错误: 线程“主要" or ..

发布时间：2021-04-08 19:41:42 scala apache-spark apache-spark-sql apache-spark-dataset 其他开发

Spark Dataset:数据转换

我有一个Spark数据集，格式为- + -------------- + -------- + ----- +|名称|类型|费用|+ -------------- + -------- + ----- +| AAAAAAAAAAAAAA | XXXXX | 0.24 || AAAAAAAAAAAAAA | YYYYY | 1.14 || BBBBBBBBBBBBBBBB | XXXXX | 0 ..

发布时间：2021-04-08 19:38:25 apache-spark apache-spark-sql apache-spark-dataset 其他开发

Spark DataFrame:查找并设置子级的主根

我有以下Apache Spark数据框: 父母-孩子 A1 - A10 A1 - A2 A2 - A3 A3 - A4 A5 - A7 A7 - A6 A8 - A9 此DataFrame显示父级和子级之间的连接.逻辑上看起来像这样: 输出 + ------ + ----- +|父母|孩子|+ ------ + ----- +|A1 |A10 ||A1 |A11 ..

发布时间：2021-04-08 19:34:40 apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0 其他开发

Spark Java:使用给定架构创建新的数据集

我有这段代码在scala中运行良好: val模式= StructType(Array(StructField("field1"，StringType，true)，StructField("field2"，TimestampType，true)，StructField("field3"，DoubleType，true)，StructField("field4"，StringType，true)， ..

发布时间：2021-04-08 19:34:02 java scala apache-spark apache-spark-dataset Java开发

apache-spark-dataset相关内容