apache-spark-mllib相关内容

PySpark &MLLib:随机森林特征的重要性

我正在尝试提取我使用 PySpark 训练的随机森林对象的特征重要性.但是,我在文档的任何地方都没有看到这样做的示例,也不是 RandomForestModel 的方法. 如何从 PySpark 中的 RandomForestModel 回归器或分类器中提取特征重要性? 这是文档中提供的示例代码,让我们开始;但是,其中没有提及特征重要性. from pyspark.mllib.tre ..

使用 Word2VecModel.transform() 在地图功能中不起作用

我使用 Spark 构建了一个 Word2Vec 模型并将其保存为模型.现在,我想在另一个代码中使用它作为离线模型.我已经加载了模型并用它来呈现一个词的向量(例如你好),它运行良好.但是,我需要在 RDD 中使用 map 调用很多词. 当我在 map 函数中调用 model.transform() 时,它抛出这个错误: “看来您正试图从广播中引用 SparkContext"例外:您似乎 ..
发布时间:2021-11-28 21:43:33 Python

如何为 Spark MLlib 模型提供服务?

我正在评估用于基于 ML 的生产应用程序的工具,我们的选择之一是 Spark MLlib,但我对如何在训练后提供模型有一些疑问? 例如,在 Azure ML 中,一旦经过训练,模型就会作为 Web 服务公开,可以从任何应用程序中使用,这与 Amazon ML 的情况类似. 您如何在 Apache Spark 中提供/部署 ML 模型? 解决方案 一方面,使用 Spark 构建的 ..
发布时间:2021-11-28 21:43:07 AI人工智能

如何将 mllib 矩阵转换为 spark 数据帧?

我想在 zeppelin 笔记本中漂亮地打印相关结果: val Row(coeff: Matrix) = Correlation.corr(data, "features").head 实现此目的的方法之一是将结果转换为 DataFrame,每个值位于单独的列中并调用 z.show(). 但是,查看 Matrix api 我看不出有什么办法可以做到这一点. 是否有另一种直接的方法来 ..

Spark MLLib 中 Kmeans++ 中的初始化步骤参数究竟是什么?

我知道 k-means 是什么,我也知道 k-means++ 算法是什么.我相信唯一的变化是找到初始 K 中心的方式. 在 ++ 版本中,我们最初选择一个中心,然后使用概率分布选择剩余的 k-1 个中心. 在 k-means 的 MLLib 算法中,initializationSteps 参数是什么? 解决方案 准确地说,k-means++ 是一种选择初始中心的算法,它并没有描 ..

我应该如何将 org.apache.spark.ml.linalg.Vector 的 RDD 转换为数据集?

我正在努力理解 RDD、DataSet 和 DataFrame 之间的转换是如何工作的.我对 Spark 很陌生,每次我需要从数据模型传递到另一个数据模型(尤其是从 RDD 到数据集和数据帧)时,我都会卡住.谁能给我解释一下正确的做法? 举个例子,现在我有一个 RDD[org.apache.spark.ml.linalg.Vector] 并且我需要将它传递给我的机器学习算法,例如一个 KMe ..

带有 DataFrame API 的 Apache Spark MLlib 在 createDataFrame() 或 read().csv(...) 时给出 java.net.URISyntaxException

在独立应用程序中(在 java8、Windows 10 上运行,使用 spark-xxx_2.11:2.0.0 作为 jar 依赖项)下一个代码给出错误: /* 这个:*/数据集logData = spark_session.createDataFrame(Arrays.asList(new LabeledPoint(1.0, Vectors.dense(4.9,3,1.4,0.2)),new ..

pyspark - 将一次热编码后获得的稀疏向量转换为列

我正在使用 apache Spark ML lib 来处理使用一种热编码的分类特征.编写以下代码后,我得到一个向量 c_idx_vec 作为一个热编码的输出.我确实了解如何解释这个输出向量,但我无法弄清楚如何将此向量转换为列,以便我获得一个新的转换数据框.以这个数据集为例: >>>fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0 ..

Spark DataFrame 不尊重模式并将所有内容视为字符串

我正面临一个我多年未能解决的问题. 我使用的是 Spark 1.4 和 Scala 2.10.我现在无法升级(大型分布式基础架构) 我有一个包含几百列的文件,其中只有 2 列是字符串,其余都是长列.我想将此数据转换为标签/特征数据框. 我已经能够将其转换为 LibSVM 格式. 我只是无法将其转换为标签/功能格式. 原因 我无法使用这里显示的 toDF()htt ..

如何在 spark SQL 中为表添加增量列 ID

我正在研究 spark mllib 算法.我拥有的数据集是这种形式 Company":"XXXX","CurrentTitle":"XYZ","Edu_Title":"ABC","Exp_mnth":.(还有更多类似的值) 我正在尝试将字符串值原始编码为数字值.因此,我尝试使用 zipwithuniqueID 作为每个字符串值的唯一值.出于某种原因,我无法将修改后的数据集保存到磁盘.我 ..