为什么我不能加载PySpark RandomForestClassifier模型? [英] Why can't I load a PySpark RandomForestClassifier model?

查看：314 发布时间：2020/9/4 8:35:18 apache-spark pyspark apache-spark-mllib

本文介绍了为什么我不能加载PySpark RandomForestClassifier模型?的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我无法加载Spark保存的RandomForestClassificationModel.

I can't load a RandomForestClassificationModel saved by Spark.

环境:Apache Spark 2.0.1，在小型(4台计算机)集群上运行的独立模式.没有HDFS-所有内容均保存到本地磁盘.

Environment: Apache Spark 2.0.1, standalone mode running on a small (4 machine) cluster. No HDFS - everything is saved to local disks.

建立并保存模型:

classifier = RandomForestClassifier(labelCol="label", featuresCol="features", numTrees=50)
model = classifier.fit(train)
result = model.transform(test)
model.write().save("/tmp/models/20161030-RF-topics-cats.model")

稍后，在另一个程序中:

Later, in a separate program:

model = RandomForestClassificationModel.load("/tmp/models/20161029-RF-topics-cats.model")

给予:

Py4JJavaError: An error occurred while calling o81.load.
: org.apache.spark.sql.AnalysisException: Unable to infer schema for ParquetFormat at /tmp/models/20161029-RF-topics-cats.model/treesMetadata. It must be specified manually;
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$16.apply(DataSource.scala:411)
    at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$16.apply(DataSource.scala:411)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:410)
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:149)
    at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:439)
    at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:423)
    at org.apache.spark.ml.tree.EnsembleModelReadWrite$.loadImpl(treeModels.scala:441)
    at org.apache.spark.ml.classification.RandomForestClassificationModel$RandomForestClassificationModelReader.load(RandomForestClassifier.scala:301

我会注意到，当我使用朴素贝叶斯分类器时，相同的代码也可以工作.

I'd note that the same code works when I use a Naive Bayes classifier.

为什么我不能加载PySpark RandomForestClassifier模型? [英] Why can't I load a PySpark RandomForestClassifier model?

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录关闭

为什么我不能加载PySpark RandomForestClassifier模型? [英] Why can&#39;t I load a PySpark RandomForestClassifier model?

问题描述

推荐答案

相关文章

其他开发最新文章

热门教程

热门工具

登录 关闭

为什么我不能加载PySpark RandomForestClassifier模型? [英] Why can't I load a PySpark RandomForestClassifier model?

登录关闭