Spark java.lang.OutOfMemoryError:Java堆空间 [英] Spark java.lang.OutOfMemoryError : Java Heap space

查看：203 发布时间：2020/5/22 20:07:39 apache-spark out-of-memory spark-submit

本文介绍了Spark java.lang.OutOfMemoryError:Java堆空间的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

使用spark运行模型训练管道时出现上述错误

I am geting the above error when i run a model training pipeline with spark

`val inputData = spark.read
  .option("header", true)
  .option("mode","DROPMALFORMED")
  .csv(input)
  .repartition(500)
  .toDF("b", "c")
  .withColumn("b", lower(col("b")))
  .withColumn("c", lower(col("c")))
  .toDF("b", "c")
  .na.drop()`

inputData 大约有2500万行，大小约为2gb.模型建立阶段就这样发生

inputData has about 25 million rows and is about 2gb in size. the model building phase happens like so

val tokenizer = new Tokenizer()
  .setInputCol("c")
  .setOutputCol("tokens")

val cvSpec = new CountVectorizer()
  .setInputCol("tokens")
  .setOutputCol("features")
  .setMinDF(minDF)
  .setVocabSize(vocabSize)

val nb = new NaiveBayes()
  .setLabelCol("bi")
  .setFeaturesCol("features")
  .setPredictionCol("prediction")
  .setSmoothing(smoothing)

new Pipeline().setStages(Array(tokenizer, cvSpec, nb)).fit(inputData)

我正在使用以下命令在具有16gb RAM的计算机中本地运行上述spark作业

I am running the above spark jobs locally in a machine with 16gb RAM using the following command

spark-submit --class holmes.model.building.ModelBuilder ./holmes-model-building/target/scala-2.11/holmes-model-building_2.11-1.0.0-SNAPSHOT-7d6978.jar --master local[*] --conf spark.serializer=org.apache.spark.serializer.KryoSerializer --conf spark.kryoserializer.buffer.max=2000m --conf spark.driver.maxResultSize=2g --conf spark.rpc.message.maxSize=1024 --conf spark.memory.offHeap.enabled=true --conf spark.memory.offHeap.size=50g --driver-memory=12g

oom错误是由(在堆栈跟踪的底部)触发的通过org.apache.spark.util.collection.ExternalSorter.writePartitionedFile(ExternalSorter.scala:706)

The oom error is triggered by (at the bottow of the stack trace) by org.apache.spark.util.collection.ExternalSorter.writePartitionedFile(ExternalSorter.scala:706)

日志:

Caused by: java.lang.OutOfMemoryError: Java heap space at java.lang.reflect.Array.newInstance(Array.java:75) at java.io.ObjectInputStream.readArray(ObjectInputStream.java:1897) at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1529) java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:2027) at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1535) org.apache.spark.util.collection.ExternalSorter.writePartitionedFile(ExternalSorter.scala:706)

任何建议都会很棒:)

Spark java.lang.OutOfMemoryError:Java堆空间 [英] Spark java.lang.OutOfMemoryError : Java Heap space

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

Spark java.lang.OutOfMemoryError:Java堆空间 [英] Spark java.lang.OutOfMemoryError : Java Heap space

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

登录关闭