apache-spark-dataset相关内容

Spark 2.0 数据集与数据帧

从 spark 2.0.1 开始我有一些问题.我阅读了很多文档,但到目前为止找不到足够的答案: 有什么区别 df.select("foo") df.select($"foo") 我理解正确吗 myDataSet.map(foo.someVal) 是类型安全的,不会转换为 RDD 而是保持在 DataSet 表示中/没有额外的开销(2.0.0 的性能明智) 所有其他命令,例如 ..

Apache Spark 中的 Jaro-Winkler 分数计算

我们需要在 Apache Spark Dataset 中实现跨字符串的 Jaro-Winkler 距离计算.我们是 Spark 的新手,在网上搜索后我们找不到太多东西.如果您能指导我们,那就太好了.我们想过使用 flatMap 然后意识到它无济于事,然后我们尝试使用几个 foreach 循环但无法弄清楚如何继续.因为每个字符串都必须与所有字符串进行比较.就像下面的数据集一样. RowFactor ..

我应该如何将 org.apache.spark.ml.linalg.Vector 的 RDD 转换为数据集?

我正在努力理解 RDD、DataSet 和 DataFrame 之间的转换是如何工作的.我对 Spark 很陌生,每次我需要从数据模型传递到另一个数据模型(尤其是从 RDD 到数据集和数据帧)时,我都会卡住.谁能给我解释一下正确的做法? 举个例子,现在我有一个 RDD[org.apache.spark.ml.linalg.Vector] 并且我需要将它传递给我的机器学习算法,例如一个 KMe ..

仅覆盖分区 spark 数据集中的某些分区

我们如何覆盖分区数据集,但只覆盖我们要更改的分区?比如重新计算上周的日常作业,只覆盖上周的数据. 默认的 Spark 行为是覆盖整个表,即使只有一些分区会被写入. 解决方案 从 Spark 2.3.0 开始,这是覆盖表时的一个选项.覆盖需要将新的spark.sql.sources.partitionOverwriteMode设置为dynamic,数据集需要分区,写入模式overwri ..
发布时间:2021-11-12 05:43:05 其他开发

使用 Spark 数据集在 Scala 中执行类型化连接

我喜欢 Spark 数据集,因为它们在编译时给我分析错误和语法错误,还允许我使用 getter 而不是硬编码的名称/数字.大多数计算都可以使用 Dataset 的高级 API 来完成.例如,通过访问 Dataset 类型的对象来执行 agg、select、sum、avg、map、filter 或 groupBy 操作要比使用 RDD 行的数据字段简单得多. 但是这里缺少连接操作,我读到我可以 ..

为什么“无法找到存储在数据集中的类型的编码器"?创建自定义案例类的数据集时?

Spark 2.0(最终版)和 Scala 2.11.8.以下超级简单的代码产生编译错误 Error:(17, 45) Unable to find encoder for type stored in a Dataset.通过导入 spark.implicits 支持原始类型(Int、String 等)和产品类型(case 类)._ 后续版本中将添加对序列化其他类型的支持. import or ..

尝试将数据帧行映射到更新行时出现编码器错误

当我尝试在我的代码中做同样的事情时,如下所述 dataframe.map(row => {val row1 = row.getAs[String](1)val make = if (row1.toLowerCase == "tesla") "S" else row1行(行(0),制作,行(2))}) 我从这里获取了上述参考:Scala:如何使用 Scala 替换数据帧中的值但我收到编码器错误 ..

Spark 2.0 数据集与数据帧

从 spark 2.0.1 开始我有一些问题.我阅读了很多文档,但到目前为止找不到足够的答案: 有什么区别 df.select("foo") df.select($"foo") 我理解正确吗 myDataSet.map(foo.someVal) 是类型安全的,不会转换为 RDD 而是保持在 DataSet 表示中/没有额外的开销(2.0.0 的性能明智) 所有其他命令,例如 ..

如何在数据集中存储自定义对象?

根据介绍Spark数据集: 当我们期待 Spark 2.0 时,我们计划对数据集进行一些激动人心的改进,特别是:...自定义编码器 - 虽然我们目前为各种类型自动生成编码器,但我们希望为自定义对象开放 API. 并尝试将自定义类型存储在 Dataset 中会导致以下错误,例如: 无法找到存储在数据集中的类型的编码器.通过导入 sqlContext.implicits 支持原始类型 ..

如何阅读“.gz"使用 spark DF 或 DS 压缩文件?

我有一个 .gz 格式的压缩文件,是否可以使用 spark DF/DS 直接读取文件? 详细信息:文件是带有制表符分隔的 csv. 解决方案 读取压缩的 csv 与读取未压缩的 csv 文件的方式相同.对于 Spark 2.0+ 版本,可以使用 Scala 完成如下操作(注意制表符分隔符的额外选项): val df = spark.read.option("sep", "\t"). ..