apache-spark-dataset 第4页 - IT屋-程序员软件开发技术分享社区

Spark 2.0 数据集与数据帧

从 spark 2.0.1 开始我有一些问题.我阅读了很多文档，但到目前为止找不到足够的答案: 有什么区别 df.select("foo") df.select($"foo") 我理解正确吗 myDataSet.map(foo.someVal) 是类型安全的，不会转换为 RDD 而是保持在 DataSet 表示中/没有额外的开销(2.0.0 的性能明智) 所有其他命令，例如 ..

发布时间：2021-11-14 21:14:09 scala apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0 其他开发

Spark中DataFrame、Dataset、RDD的区别

我只是想知道 RDD 和 DataFrame 之间有什么区别 (Spark 2.0.0 DataFrame 只是 Dataset 的类型别名[行]) 在 Apache Spark 中? 你能把一个转换成另一个吗? 解决方案 A DataFrame is defined with a google search for "DataFrame definition": 一个数据框是 ..

发布时间：2021-11-14 21:14:06 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset 其他开发

Apache Spark 中的 Jaro-Winkler 分数计算

我们需要在 Apache Spark Dataset 中实现跨字符串的 Jaro-Winkler 距离计算.我们是 Spark 的新手，在网上搜索后我们找不到太多东西.如果您能指导我们，那就太好了.我们想过使用 flatMap 然后意识到它无济于事，然后我们尝试使用几个 foreach 循环但无法弄清楚如何继续.因为每个字符串都必须与所有字符串进行比较.就像下面的数据集一样. RowFactor ..

发布时间：2021-11-14 21:11:25 apache-spark apache-spark-mllib apache-spark-ml apache-spark-2.0 apache-spark-dataset 其他开发

我应该如何将 org.apache.spark.ml.linalg.Vector 的 RDD 转换为数据集?

我正在努力理解 RDD、DataSet 和 DataFrame 之间的转换是如何工作的.我对 Spark 很陌生，每次我需要从数据模型传递到另一个数据模型(尤其是从 RDD 到数据集和数据帧)时，我都会卡住.谁能给我解释一下正确的做法? 举个例子，现在我有一个 RDD[org.apache.spark.ml.linalg.Vector] 并且我需要将它传递给我的机器学习算法，例如一个 KMe ..

发布时间：2021-11-14 21:10:07 apache-spark apache-spark-sql rdd apache-spark-mllib apache-spark-dataset 其他开发

Spark SQL 中的数组交集

我有一个表，其中包含一个名为 writer 的数组类型列，它的值类似于 array[value1, value2], array[value2, value3].... 等我正在执行 self join 以获得在数组之间具有共同值的结果.我试过了: sqlContext.sql("SELECT R2.writer FROM table R1 JOIN table R2 ON R1.id ..

发布时间：2021-11-12 05:46:50 apache-spark apache-spark-sql spark-dataframe hiveql apache-spark-dataset 其他开发

如何从 SparkSQL DataFrame 中的 MapType 列中获取键和值

我在一个镶木地板文件中有数据，它有 2 个字段:object_id: String 和 alpha: Map. 它被读入 sparkSQL 中的数据框，架构如下所示: scala>alphaDF.printSchema()根|-- object_id: string (nullable = true)|-- ALPHA:地图(可为空 = 真)||-- 键:字符串||-- 值:结构体(val ..

发布时间：2021-11-12 05:43:52 scala apache-spark dataframe apache-spark-sql apache-spark-dataset 其他开发

仅覆盖分区 spark 数据集中的某些分区

我们如何覆盖分区数据集，但只覆盖我们要更改的分区?比如重新计算上周的日常作业，只覆盖上周的数据. 默认的 Spark 行为是覆盖整个表，即使只有一些分区会被写入. 解决方案从 Spark 2.3.0 开始，这是覆盖表时的一个选项.覆盖需要将新的spark.sql.sources.partitionOverwriteMode设置为dynamic，数据集需要分区，写入模式overwri ..

发布时间：2021-11-12 05:43:05 apache-spark hive apache-spark-dataset 其他开发

将 ADT/密封特征层次结构编码到 Spark DataSet 列中

如果我想在 Spark DataSet 列，最佳编码策略是什么? 例如，如果我有一个 ADT，其中叶类型存储不同类型的数据: 密封特质职业案例对象 SoftwareEngineer 扩展职业case class Wizard(level: Int) extends Occupationcase class Other(description: String) extends Occupat ..

发布时间：2021-11-12 05:41:50 scala apache-spark apache-spark-dataset apache-spark-encoders 其他开发

使用 Spark 数据集在 Scala 中执行类型化连接

我喜欢 Spark 数据集，因为它们在编译时给我分析错误和语法错误，还允许我使用 getter 而不是硬编码的名称/数字.大多数计算都可以使用 Dataset 的高级 API 来完成.例如，通过访问 Dataset 类型的对象来执行 agg、select、sum、avg、map、filter 或 groupBy 操作要比使用 RDD 行的数据字段简单得多. 但是这里缺少连接操作，我读到我可以 ..

发布时间：2021-11-12 05:39:42 scala apache-spark join apache-spark-sql apache-spark-dataset 其他开发

为什么“无法找到存储在数据集中的类型的编码器"?创建自定义案例类的数据集时?

Spark 2.0(最终版)和 Scala 2.11.8.以下超级简单的代码产生编译错误 Error:(17, 45) Unable to find encoder for type stored in a Dataset.通过导入 spark.implicits 支持原始类型(Int、String 等)和产品类型(case 类)._ 后续版本中将添加对序列化其他类型的支持. import or ..

发布时间：2021-11-12 05:29:37 scala apache-spark apache-spark-dataset apache-spark-encoders 其他开发

尝试将数据帧行映射到更新行时出现编码器错误

当我尝试在我的代码中做同样的事情时，如下所述 dataframe.map(row => {val row1 = row.getAs[String](1)val make = if (row1.toLowerCase == "tesla") "S" else row1行(行(0)，制作，行(2))}) 我从这里获取了上述参考:Scala:如何使用 Scala 替换数据帧中的值但我收到编码器错误 ..

发布时间：2021-11-12 05:25:10 scala apache-spark apache-spark-sql apache-spark-dataset apache-spark-encoders 其他开发

DataFrame/Dataset groupBy 行为/优化

假设我们有 DataFrame df 由以下列组成: 姓名、姓氏、大小、宽度、长度、重量现在我们要执行几个操作，例如我们要创建几个包含有关大小和宽度数据的 DataFrame. val df1 = df.groupBy("surname").agg( sum("size") )val df2 = df.groupBy("surname").agg(sum("width")) 如您 ..

发布时间：2021-11-12 05:24:14 performance apache-spark dataframe apache-spark-sql apache-spark-dataset 其他开发

Spark 2.0 数据集与数据帧

从 spark 2.0.1 开始我有一些问题.我阅读了很多文档，但到目前为止找不到足够的答案: 有什么区别 df.select("foo") df.select($"foo") 我理解正确吗 myDataSet.map(foo.someVal) 是类型安全的，不会转换为 RDD 而是保持在 DataSet 表示中/没有额外的开销(2.0.0 的性能明智) 所有其他命令，例如 ..

发布时间：2021-11-12 05:24:05 scala apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0 其他开发

Spark中DataFrame、Dataset、RDD的区别

我只是想知道 RDD 和 DataFrame 之间有什么区别 (Spark 2.0.0 DataFrame 只是 Dataset 的类型别名[行]) 在 Apache Spark 中? 你能把一个转换成另一个吗? 解决方案 A DataFrame is defined with a google search for "DataFrame definition": 一个数据框是 ..

发布时间：2021-11-12 05:23:50 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset 其他开发

如何在数据集中存储自定义对象?

根据介绍Spark数据集: 当我们期待 Spark 2.0 时，我们计划对数据集进行一些激动人心的改进，特别是:...自定义编码器 - 虽然我们目前为各种类型自动生成编码器，但我们希望为自定义对象开放 API. 并尝试将自定义类型存储在 Dataset 中会导致以下错误，例如: 无法找到存储在数据集中的类型的编码器.通过导入 sqlContext.implicits 支持原始类型 ..

发布时间：2021-11-12 05:22:51 scala apache-spark apache-spark-dataset apache-spark-encoders 其他开发

Spark Streamming:从具有多个模式的 kafka 读取数据

我正在为 Spark 流的实现而苦苦挣扎. 来自 kafka 的消息看起来像这样，但有更多的字段 {"event":"sensordata", "source":"sensors", "payload": {"actual data as a json}}{"event":"databasedata", "mysql":"sensors", "payload": {"json 形式的实际数 ..

发布时间：2021-11-12 02:14:59 apache-spark apache-kafka spark-streaming apache-spark-dataset 其他开发

如何在强类型 Spark 数据集上使用 Window 聚合?

我正在缓慢地尝试适应 Spark 2.x 中的新(强类型)Dataset[U]，但在使用时努力维护类型信息窗口函数. case class Measurement(nb:Long,x:Double) ds 是一个 Dataset[Measurement]，我想做类似的事情 ds.map{m =>(m,sum($"x").over(Window.orderBy($"nb"))} 但这行不通( ..

发布时间：2021-07-15 20:51:40 scala apache-spark apache-spark-dataset 其他开发

如何阅读“.gz"使用 spark DF 或 DS 压缩文件?

我有一个 .gz 格式的压缩文件，是否可以使用 spark DF/DS 直接读取文件? 详细信息:文件是带有制表符分隔的 csv. 解决方案读取压缩的 csv 与读取未压缩的 csv 文件的方式相同.对于 Spark 2.0+ 版本，可以使用 Scala 完成如下操作(注意制表符分隔符的额外选项): val df = spark.read.option("sep", "\t"). ..

发布时间：2021-06-25 18:36:51 apache-spark apache-spark-sql gzip apache-spark-dataset 其他开发

Dataset.reduce不支持简写功能

我有一个简单的代码: test("0153"){val c = Seq(1,8,4,2,7)val max =(x:Int，y:Int)=>如果(x> y)x其他yc.reduce(最大)} 工作正常.但是，当我按照相同的方式使用 Dataset.reduce 时， test("SparkSQLTest"){def max(x:Int，y:Int)=如果(x> y)x else yva ..

发布时间：2021-04-08 20:30:54 scala apache-spark apache-spark-sql apache-spark-dataset 其他开发

Spark数据集方法是否会序列化计算本身?

我有一个包含多列的数据集.需要调用一个函数以使用一行中的可用数据来计算结果.因此，我将案例类与方法结合使用，并使用该案例创建了数据集.例如，案例类testCase(x:Double，a1:Array [Double]，a2:Array [Double]){var someInt = 0def myMethod1():Unit = {...}//使用x，a1和a2def myMethod2(): ..

发布时间：2021-04-08 20:24:44 scala apache-spark apache-spark-dataset 其他开发

apache-spark-dataset相关内容