apache-spark-mllib相关内容

列变换后的 Pyspark 随机森林特征重要性映射

我试图用列名绘制某些基于树的模型的特征重要性.我正在使用 Pyspark. 因为我也有文本分类变量和数字变量,所以我不得不使用类似这样的管道方法 - 使用字符串索引器来索引字符串列 对所有列使用一个热编码器 使用vectorassembler创建包含特征向量的特征列 来自 docs 步骤 1,2,3 - from pyspark.ml import Pipeline从 ..

当 udf 函数不接受足够大的输入变量时 Spark DataFrames

我正在准备一个带有 id 和特征向量的 DataFrame,稍后将用于进行预测.我在我的数据框上做了一个 groupBy,在我的 groupBy 中,我将几列作为列表合并到一个新列中: def mergeFunction(...)//有 14 个输入变量val myudffunction( mergeFunction )//Spark 不支持这个df.groupBy("id").agg(coll ..

在 PySpark 中编码和组装多个功能

我有一个 Python 类,用于在 Spark 中加载和处理一些数据.在我需要做的各种事情中,我正在生成一个从 Spark 数据帧中的各个列派生的虚拟变量列表.我的问题是我不确定如何正确定义用户定义的函数来完成我需要的功能. 我确实目前有一个方法,当映射到底层数据帧 RDD 时,解决了一半的问题(请记住,这是一个更大的 data_processor 类中的方法): def build_fe ..

如何使用 Spark 的 MLLib 对推文进行矢量化处理?

我想将推文转换为用于机器学习的向量,以便我可以使用 Spark 的 K-Means 聚类基于内容对它们进行分类.例如,所有与亚马逊相关的推文都归入一个类别. 我曾尝试将推文拆分为单词并使用 HashingTF 创建向量,但效果不佳. 还有其他方法可以对推文进行矢量化处理吗? 解决方案 你可以试试这个管道: 首先,标记输入推文(位于 text 列中).基本上,它会创建一个新 ..
发布时间:2021-11-14 21:13:09 其他开发

如何在apache spark中将文本和数字数据的混合转换为特征数据

我有一个包含文本和数字数据的 CSV.我需要将其转换为 Spark 中的特征向量数据(双值).有没有办法做到这一点? 我看到一些例如每个关键字都映射到一些双值并使用它进行转换的地方.但是如果有多个关键字,就很难做到这一点. 还有其他出路吗?我看到 Spark 提供了可转换为特征向量的提取器.有人可以举个例子吗? 48, Private, 105808, 9th, 5, Widowed ..
发布时间:2021-11-14 21:13:06 其他开发

在贝叶斯分类之前使用 PCA

我正在尝试在贝叶斯分类之前使用 PCA,但它说 Native Bayes 需要非负特征值,使用的训练数据是非负的,但使用 PCA 变成负值,我该如何解决,感谢回答我的问题 解决方案 如果您想减少输入的维度,可以改用非负矩阵分解.在Spark中,此方法在mllib.recommendation.ALS中,然后将非负参数设置为True. ..
发布时间:2021-11-14 21:12:59 其他开发

无法为数据源加载类:Spark ML pyspark/scala 中的 Libsvm

当我尝试使用 "sqlContext.read.format("libsvm").load" 在 pyspark/scala 中导入 libsvm 文件时,出现以下错误 - “无法为数据源加载类:Libsvm." 同时,如果我使用 "MLUtils.loadLibSVMFile" 它工作得很好.我需要同时使用 Spark ML(获取类别概率)和 MLlib 进行评估.附上错误截图. ..