apache-spark-dataset相关内容
环境: Spark版本:2.3.0运行模式:本地Java版本:Java 8 spark应用程序尝试执行以下操作 1)将输入数据转换为数据集[GenericRecord] 2)按GenericRecord的关键属性分组 3)组后使用mapGroups迭代值列表并以String格式获取一些结果 4)在文本文件中将结果输出为字符串. 写入文本文件时发生错误.Spar
..
我正在使用 spark-excel 来读取Excel文件,问题出在我什么时候如果使用具有多行标头的文件,则数据集的QueryExecution会引发异常 Method引发了'scala.MatchError'异常.无法评估org.apache.spark.sql.execution.QueryExecution.toString() 目前唯一的解决方案是用一行替换多行标题,我也尝试使用 wi
..
我有一个数据集,该数据集的下方低于下方. df.show();+ -------- + --------- + --------- + --------- + --------- +|Col1 |Col2 |支出1 |支出2 |支出3 |+ -------- + --------- + --------- + --------- + --------- +|值1 |Cvalue1 |123 |
..
问题是“>如何在数据集中存储自定义对象的后续措施? 火花版本:3.0.1 可以实现非嵌套的自定义类型: 导入spark.implicits._导入org.apache.spark.sql.{编码器,编码器}类AnObj(val a:Int,val b:String)隐式val myEncoder:Encoder [AnObj] = Encoders.kryo [AnObj]val d
..
似乎scala.collection.SortedMap无法序列化? 简单的代码示例: 案例类MyClass(s:scala.collection.SortedMap [String,String] = SortedMap [String,String]())对象MyClass {def apply(i:Int):MyClass = MyClass()}导入sparkSession.i
..
我想通过使用不同的大小写类将dataFrame转换为dataSet.现在,我的代码如下所示. 案例类视图(视图:Double)案例类点击次数(点击次数:两次)def convertViewsDFtoDS(df:DataFrame){df.as [观看次数]}def convertClicksDFtoDS(df:DataFrame){df.as [点击次数]} 所以,我的问题是“无论如何,我可
..
我有一个数据帧中的数据,该数据帧是从azure eventhub获得的.然后,我将这些数据转换为json对象,并将所需的数据存储到数据集中,如下所示. 用于从eventhub获取数据并将其存储到数据帧中的代码. val connectionString = ConnectionStringBuilder().setEventHubName(
..
我有一个简单的代码: test("0153"){val c = Seq(1,8,4,2,7)val max =(x:Int,y:Int)=>如果(x> y)x其他yc.reduce(最大)} 工作正常.但是,当我按照相同的方式使用 Dataset.reduce 时, test("SparkSQLTest"){def max(x:Int,y:Int)=如果(x> y)x else yva
..
我正在尝试将实际上包含双精度值的csv字符串转换为spark-ml兼容的数据集.由于我事先不知道要预期的功能数量,因此我决定使用一个帮助器类“实例",该类已经包含了分类器要使用的正确数据类型,并且在某些其他情况下已经可以按预期工作: 公共类实例实现Serializable {/****/私有静态最终长serialVersionUID = 6091606543088855593L;私有Vector
..
假设我的数据集如下: 名称|主题|Y1 |Y2A |数学|1998 |2000B ||1996 |1999年|科学|2004 |2005年 我想拆分此数据集的行,以便像这样消除Y2列: 名称|主题|Y1A |数学|1998年A |数学|1999年A |数学|2000B ||1996年B ||1997年B ||1998年B ||1999年|科学|2004年|科学|2005年 有人可以在这
..
我正在尝试编写一个火花UDF,将Double字段的空值替换为0.0.我正在使用数据集API.这是UDF: val coalesceToZero = udf((rate:Double)=> if(Option(rate).isDefined)rate else 0.0) 这基于我测试正常运行的以下功能: def cz(value:Double):Double = if(Option(va
..
让我们假设我具有以下 Dataset : + ----------- + ---------- +|产品代码|金额|+ ----------- + ---------- +|XX-13 |300 ||XX-1 |250 ||XX-2 |410 ||XX-9 |50 ||XX-10 |35 ||XX-100 |870 |+ ----------- + ---------- + 其中 prod
..
我正在处理Spark代码,其中我必须将多个列值保存为对象格式并将结果保存到mongodb 给出数据集 | --- | --------- | ------ | ---------- || A | A_SRC |过去_ |过去_SRC || --- | --------- | ------ | ---------- || a1 |s1 |a2 |s2 | 我尝试过的 val ds
..
我有一个Java Map 变量,例如 MapsingleColMap .我想将此 Map 变量添加到数据集中,作为Spark 2.2(Java 1.8)中的新列值. 我尝试了以下代码,但无法正常工作: ds.withColumn("cMap",lit(singleColMap).cast(MapType(StringType,StringType)))
..
很抱歉提出一个简单的问题.我想将case类传递给函数参数,并且想在函数内部进一步使用它.到现在为止,我已经使用 TypeTag 和 ClassTag 进行了尝试,但是由于某种原因,我无法正确使用它,或者可能是因为我不在正确的位置. 用例与此类似: 案例类infoData(colA:Int,colB:String)案例类someOtherData(col1:String,col2:String,
..
SparkSession.createDataset()仅允许 List,RDD或Seq -但不支持 JavaPairRDD . 因此,如果我有一个要从中创建 Dataset 的 JavaPairRDD ,则对于 SparkSession.createDataset()限制,以创建包含两个字段的包装器 UserMap 类: String 和 User . 然
..
我有以下案例类: 案例类Person(名称:字符串,姓:Option [String] =无,年龄:BigInt){} 以及以下json: {"name":"bemjamin","age":1} 当我尝试将数据框转换为数据集时: spark.read.json("example.json").as [Person] .show() 它显示了以下错误: 线程“主要" or
..
我有一个Spark数据集,格式为- + -------------- + -------- + ----- +|名称|类型|费用|+ -------------- + -------- + ----- +| AAAAAAAAAAAAAA | XXXXX | 0.24 || AAAAAAAAAAAAAA | YYYYY | 1.14 || BBBBBBBBBBBBBBBB | XXXXX | 0
..
我有以下Apache Spark数据框: 父母-孩子 A1 - A10 A1 - A2 A2 - A3 A3 - A4 A5 - A7 A7 - A6 A8 - A9 此DataFrame显示父级和子级之间的连接.逻辑上看起来像这样: 输出 + ------ + ----- +|父母|孩子|+ ------ + ----- +|A1 |A10 ||A1 |A11
..
我有这段代码在scala中运行良好: val模式= StructType(Array(StructField("field1",StringType,true),StructField("field2",TimestampType,true),StructField("field3",DoubleType,true),StructField("field4",StringType,true),
..