apache-spark-dataset相关内容
从 spark 2.0.1 开始我有一些问题.我阅读了很多文档,但到目前为止找不到足够的答案: 有什么区别 df.select("foo") df.select($"foo") 我理解正确吗 myDataSet.map(foo.someVal) 是类型安全的,不会转换为 RDD 而是保持在 DataSet 表示中/没有额外的开销(2.0.0 的性能明智) 所有其他命令,例如
..
我只是想知道 RDD 和 DataFrame 之间有什么区别 (Spark 2.0.0 DataFrame 只是 Dataset 的类型别名[行]) 在 Apache Spark 中? 你能把一个转换成另一个吗? 解决方案 A DataFrame is defined with a google search for "DataFrame definition": 一个数据框是
..
我们需要在 Apache Spark Dataset 中实现跨字符串的 Jaro-Winkler 距离计算.我们是 Spark 的新手,在网上搜索后我们找不到太多东西.如果您能指导我们,那就太好了.我们想过使用 flatMap 然后意识到它无济于事,然后我们尝试使用几个 foreach 循环但无法弄清楚如何继续.因为每个字符串都必须与所有字符串进行比较.就像下面的数据集一样. RowFactor
..
我正在努力理解 RDD、DataSet 和 DataFrame 之间的转换是如何工作的.我对 Spark 很陌生,每次我需要从数据模型传递到另一个数据模型(尤其是从 RDD 到数据集和数据帧)时,我都会卡住.谁能给我解释一下正确的做法? 举个例子,现在我有一个 RDD[org.apache.spark.ml.linalg.Vector] 并且我需要将它传递给我的机器学习算法,例如一个 KMe
..
我有一个表,其中包含一个名为 writer 的数组类型列,它的值类似于 array[value1, value2], array[value2, value3].... 等 我正在执行 self join 以获得在数组之间具有共同值的结果.我试过了: sqlContext.sql("SELECT R2.writer FROM table R1 JOIN table R2 ON R1.id
..
我在一个镶木地板文件中有数据,它有 2 个字段:object_id: String 和 alpha: Map. 它被读入 sparkSQL 中的数据框,架构如下所示: scala>alphaDF.printSchema()根|-- object_id: string (nullable = true)|-- ALPHA:地图(可为空 = 真)||-- 键:字符串||-- 值:结构体(val
..
我们如何覆盖分区数据集,但只覆盖我们要更改的分区?比如重新计算上周的日常作业,只覆盖上周的数据. 默认的 Spark 行为是覆盖整个表,即使只有一些分区会被写入. 解决方案 从 Spark 2.3.0 开始,这是覆盖表时的一个选项.覆盖需要将新的spark.sql.sources.partitionOverwriteMode设置为dynamic,数据集需要分区,写入模式overwri
..
如果我想在 Spark DataSet 列,最佳编码策略是什么? 例如,如果我有一个 ADT,其中叶类型存储不同类型的数据: 密封特质职业案例对象 SoftwareEngineer 扩展职业case class Wizard(level: Int) extends Occupationcase class Other(description: String) extends Occupat
..
我喜欢 Spark 数据集,因为它们在编译时给我分析错误和语法错误,还允许我使用 getter 而不是硬编码的名称/数字.大多数计算都可以使用 Dataset 的高级 API 来完成.例如,通过访问 Dataset 类型的对象来执行 agg、select、sum、avg、map、filter 或 groupBy 操作要比使用 RDD 行的数据字段简单得多. 但是这里缺少连接操作,我读到我可以
..
Spark 2.0(最终版)和 Scala 2.11.8.以下超级简单的代码产生编译错误 Error:(17, 45) Unable to find encoder for type stored in a Dataset.通过导入 spark.implicits 支持原始类型(Int、String 等)和产品类型(case 类)._ 后续版本中将添加对序列化其他类型的支持. import or
..
当我尝试在我的代码中做同样的事情时,如下所述 dataframe.map(row => {val row1 = row.getAs[String](1)val make = if (row1.toLowerCase == "tesla") "S" else row1行(行(0),制作,行(2))}) 我从这里获取了上述参考:Scala:如何使用 Scala 替换数据帧中的值但我收到编码器错误
..
假设我们有 DataFrame df 由以下列组成: 姓名、姓氏、大小、宽度、长度、重量 现在我们要执行几个操作,例如我们要创建几个包含有关大小和宽度数据的 DataFrame. val df1 = df.groupBy("surname").agg( sum("size") )val df2 = df.groupBy("surname").agg(sum("width")) 如您
..
从 spark 2.0.1 开始我有一些问题.我阅读了很多文档,但到目前为止找不到足够的答案: 有什么区别 df.select("foo") df.select($"foo") 我理解正确吗 myDataSet.map(foo.someVal) 是类型安全的,不会转换为 RDD 而是保持在 DataSet 表示中/没有额外的开销(2.0.0 的性能明智) 所有其他命令,例如
..
我只是想知道 RDD 和 DataFrame 之间有什么区别 (Spark 2.0.0 DataFrame 只是 Dataset 的类型别名[行]) 在 Apache Spark 中? 你能把一个转换成另一个吗? 解决方案 A DataFrame is defined with a google search for "DataFrame definition": 一个数据框是
..
根据介绍Spark数据集: 当我们期待 Spark 2.0 时,我们计划对数据集进行一些激动人心的改进,特别是:...自定义编码器 - 虽然我们目前为各种类型自动生成编码器,但我们希望为自定义对象开放 API. 并尝试将自定义类型存储在 Dataset 中会导致以下错误,例如: 无法找到存储在数据集中的类型的编码器.通过导入 sqlContext.implicits 支持原始类型
..
我正在为 Spark 流的实现而苦苦挣扎. 来自 kafka 的消息看起来像这样,但有更多的字段 {"event":"sensordata", "source":"sensors", "payload": {"actual data as a json}}{"event":"databasedata", "mysql":"sensors", "payload": {"json 形式的实际数
..
我正在缓慢地尝试适应 Spark 2.x 中的新(强类型)Dataset[U],但在使用时努力维护类型信息窗口函数. case class Measurement(nb:Long,x:Double) ds 是一个 Dataset[Measurement],我想做类似的事情 ds.map{m =>(m,sum($"x").over(Window.orderBy($"nb"))} 但这行不通(
..
我有一个 .gz 格式的压缩文件,是否可以使用 spark DF/DS 直接读取文件? 详细信息:文件是带有制表符分隔的 csv. 解决方案 读取压缩的 csv 与读取未压缩的 csv 文件的方式相同.对于 Spark 2.0+ 版本,可以使用 Scala 完成如下操作(注意制表符分隔符的额外选项): val df = spark.read.option("sep", "\t").
..
我有一个简单的代码: test("0153"){val c = Seq(1,8,4,2,7)val max =(x:Int,y:Int)=>如果(x> y)x其他yc.reduce(最大)} 工作正常.但是,当我按照相同的方式使用 Dataset.reduce 时, test("SparkSQLTest"){def max(x:Int,y:Int)=如果(x> y)x else yva
..
我有一个包含多列的数据集.需要调用一个函数以使用一行中的可用数据来计算结果.因此,我将案例类与方法结合使用,并使用该案例创建了数据集.例如, 案例类testCase(x:Double,a1:Array [Double],a2:Array [Double]){var someInt = 0def myMethod1():Unit = {...}//使用x,a1和a2def myMethod2():
..