apache-spark-2.0相关内容

指定列的Spark SQL问题

我们正在尝试将oracle数据库复制到配置单元中.我们从oracle获取查询,并在配置单元中运行它们. 因此,我们以以下格式获取它们: INSERT INTO schema.table(col1,col2) VALUES ('val','val'); 此查询直接在Hive中运行时,当我使用spark.sql时,出现以下错误: org.apache.spark.sql.catalys ..
发布时间:2020-09-04 19:55:34 其他开发

使用Scala的Spark 2.0时间戳差异(以毫秒为单位)

我正在使用Spark 2.0,并在Scala中寻找一种实现以下目标的方法: 两个数据帧列值之间需要时间戳差异(以毫秒为单位). Value_1 = 06/13/2017 16:44:20.044 Value_2 = 06/13/2017 16:44:21.067 两者的数据类型都是时间戳. 注意:在两个值上都应用函数 unix_timestamp(Column s)并进行减法 ..

Apache Spark中的Jaro-Winkler分数计算

我们需要在Apache Spark 数据集中跨字符串实现Jaro-Winkler距离计算.我们是新兴的,在网络上搜索之后,我们找不到很多东西.如果您能指导我们,那就太好了.我们考虑使用 flatMap ,然后意识到这无济于事,然后我们尝试使用几个foreach循环,但无法弄清楚如何进行.因为每个字符串都必须与所有字符串进行比较.就像下面的数据集一样. RowFactory.create(0, ..

在Spark 2.1.0中读取大文件时出现内存不足错误

我想使用spark来将大型(51 GB)XML文件(在外部HDD上)读入数据帧(使用但是不管我如何调整,我总是得到java.lang.OutOfMemoryError: Java heap space. 我想了解为什么不增加分区数量会阻止OOM错误 不是应该将任务分成更多的部分,以使每个部分都较小并且不会引起内存问题吗? (Spark不可能试图将所有内容都塞进内存,如果不合适的话 ..

将系统属性传递给spark-submit并从类路径或自定义路径读取文件

我最近在Apache Spark中找到了 一种使用logback代替log4j的方法 (都供本地使用和spark-submit).但是,最后一块丢失了. 问题是Spark非常努力地在其类路径中看不到logback.xml设置.我已经找到了一种在本地执行期间加载它的方法: 我到目前为止所拥有的 基本上,检查系统属性logback.configurationFile,但是从我的/sr ..
发布时间:2020-09-04 07:55:55 Java开发

Apache Spark与Apache Spark 2

与Apache Spark相比,Apache Spark2带来了哪些改进? 从架构的角度来看 从应用程序角度看 或更多 解决方案 Apache Spark 2.0.0 API基本上类似于1.X,Spark 2.0.0确实有API重大更改 Apache Spark 2.0.0 是2.x行中的第一个发行版.主要更新包括 API可用性,SQL 2003支持,性能改进,结构化流 ..
发布时间:2020-09-04 07:51:19 其他开发

Apache Spark加入了动态重新分区

我正在尝试在两个表上进行相当简单的联接,没有什么复杂的. 加载两个表,进行联接和更新列,但它总是引发异常. 我注意到任务卡在了最后一个分区199/200上,最终崩溃了. 我的怀疑是数据歪斜,导致所有数据都加载到了最后一个分区199. SELECT COUNT(DISTINCT report_audit) FROM ReportDs = 1.5million. 而 SELEC ..

不支持任何类型的架构

我正在尝试创建一个火花UDF,以从用户定义的案例类中提取(键,值)对的映射. scala函数似乎工作正常,但是当我尝试在spark2.0中将其转换为UDF时,遇到了“不支持Any类型的模式"错误. case class myType(c1: String, c2: Int) def getCaseClassParams(cc: Product): Map[String, Any] = ..

如何透视流数据集?

我试图透视一个Spark流数据集(结构化流),但是却得到一个AnalysisException(以下摘录). 有人可以确认结构化流(Spark 2.0)中确实不支持数据透视吗,也许建议其他方法? 线程“主"中的异常org.apache.spark.sql.AnalysisException:具有流源的查询必须使用writeStream.start();执行; 卡夫卡 在org.apac ..

触发堆内存配置和钨

我认为,通过集成Tungesten项目,spark会自动使用堆外内存. spark.memory.offheap.size和spark.memory.offheap.enabled的作用是什么?我是否需要在此处手动指定钨的堆外内存量? 解决方案 Spark/Tungsten使用编码器/解码器将JVM对象表示为高度专用的Spark SQL类型对象,然后可以以高性能方式对其进行序列化和操 ..

如何从现有的SparkContext创建SparkSession

我有一个Spark应用程序,该应用程序使用带有SparkSession的Spark 2.0新API. 我正在使用SparkContext的另一个应用程序之上构建此应用程序.我想将SparkContext传递给我的应用程序,并使用现有的SparkContext初始化SparkSession. 但是我找不到一种方法来做到这一点.我发现带有SparkContext的SparkSession构造函数 ..
发布时间:2020-09-04 03:03:33 其他开发