apache-spark-2.0相关内容

读取带有包含嵌入逗号的引用字段的 csv 文件

我正在 Pyspark 中读取一个 csv 文件,如下所示: df_raw=spark.read.option("header","true").csv(csv_path) 但是,数据文件引用了带有嵌入逗号的字段不应被视为逗号.我如何在 Pyspark 中处理这个问题?我知道 pandas 可以处理这个问题,但 Spark 可以吗?我使用的版本是 Spark 2.0.0. 这是一个在 P ..

Spark 中有哪些不同的连接类型?

我查看了文档,它说支持以下连接类型: 要执行的连接类型.默认内部.必须是以下之一:内部、交叉、外,全,full_outer,左,left_outer,右,right_outer,left_semi,left_anti. 我查看了关于 SQL 连接和顶部的 StackOverflow 答案几个答案没有提到上面的一些连接,例如left_semi 和 left_anti.它们在 Spark ..

Spark 2.0 数据集与数据帧

从 spark 2.0.1 开始我有一些问题.我阅读了很多文档,但到目前为止找不到足够的答案: 有什么区别 df.select("foo") df.select($"foo") 我理解正确吗 myDataSet.map(foo.someVal) 是类型安全的,不会转换为 RDD 而是保持在 DataSet 表示中/没有额外的开销(2.0.0 的性能明智) 所有其他命令,例如 ..

Apache Spark 中的 Jaro-Winkler 分数计算

我们需要在 Apache Spark Dataset 中实现跨字符串的 Jaro-Winkler 距离计算.我们是 Spark 的新手,在网上搜索后我们找不到太多东西.如果您能指导我们,那就太好了.我们想过使用 flatMap 然后意识到它无济于事,然后我们尝试使用几个 foreach 循环但无法弄清楚如何继续.因为每个字符串都必须与所有字符串进行比较.就像下面的数据集一样. RowFactor ..

读取带有包含嵌入逗号的引用字段的 csv 文件

我正在 Pyspark 中读取一个 csv 文件,如下所示: df_raw=spark.read.option("header","true").csv(csv_path) 但是,数据文件引用了带有嵌入逗号的字段不应被视为逗号.我如何在 Pyspark 中处理这个问题?我知道 pandas 可以处理这个问题,但 Spark 可以吗?我使用的版本是 Spark 2.0.0. 这是一个在 P ..

Spark 中有哪些连接类型?

我查看了文档,它说支持以下连接类型: 要执行的连接类型.默认内部.必须是以下之一:内部、交叉、外,全,full_outer,左,left_outer,右,right_outer,left_semi,left_anti. 我查看了关于 SQL 连接和顶部的 StackOverflow 答案几个答案没有提到上面的一些连接,例如left_semi 和 left_anti.它们在 Spark ..

Spark 2.0 数据集与数据帧

从 spark 2.0.1 开始我有一些问题.我阅读了很多文档,但到目前为止找不到足够的答案: 有什么区别 df.select("foo") df.select($"foo") 我理解正确吗 myDataSet.map(foo.someVal) 是类型安全的,不会转换为 RDD 而是保持在 DataSet 表示中/没有额外的开销(2.0.0 的性能明智) 所有其他命令,例如 ..

java.lang.IllegalStateException:读取增量文件时出错,使用 kafka 触发结构化流

我在我们的项目中使用 Structured Streaming + Kafka 进行实时数据分析.我使用的是 Spark 2.2,kafka 0.10.2. 我在应用程序启动时从检查点恢复流式查询时遇到问题.由于从单个 kafka 流点派生出多个流查询,并且每个流查询都有不同的检查目录.因此,在作业失败的情况下,当我们重新启动作业时,会出现一些无法从检查点位置恢复的流查询,因此会引发异常读取 ..

使用 Spark 2.0.2(结构化流)从 Kafka 读取 Avro 消息

我有一个 spark 2.0 应用程序,它使用 spark 流(使用 spark-streaming-kafka-0-10_2.11)从 kafka 读取消息. 结构化流看起来很酷,所以我想尝试迁移代码,但我不知道如何使用它. 在常规流中,我使用 kafkaUtils 来 createDstrean,在我传递的参数中,它是值反序列化器. 在 Structured Streamin ..

Spark 中 UDAF 与聚合器的性能对比

我正在尝试在 Spark 中编写一些注重性能的代码,并想知道我是否应该编写一个 Aggregator 或 用户定义的聚合函数 (UDAF) 用于我对数据帧的汇总操作. 我无法在任何地方找到任何关于这些方法有多快以及您应该在 spark 2.0+ 中使用的数据. 解决方案 你应该写一个 Aggregator 而不是 UserDefinedAggregateFunction 作为 Use ..