apache-spark-ml相关内容

Spark MLlib 和 Spark ML 中的 PCA

Spark 现在有两个机器学习库 - Spark MLlib 和 Spark ML.它们在实现的内容上确实有些重叠,但据我所知(作为整个 Spark 生态系统的新手)Spark ML 是要走的路,MLlib 仍然存在,主要是为了向后兼容. 我的问题非常具体并且与 PCA 相关.在 MLlib 实现中似乎有一个限制列数 spark.mllib 支持 PCA,用于以行向格式存储的高瘦矩阵和 ..
发布时间:2021-11-14 21:04:30 其他开发

如何在 Spark Pipeline 中使用 RandomForest

我想用网格搜索和 spark 交叉验证来调整我的模型.在 spark 中,它必须将基础模型放入管道中,管道的office demo 使用LogistictRegression 作为基础模型,它可以是新的对象.但是,RandomForest 模型不能被客户端代码new,因此它似乎无法在管道 api 中使用 RandomForest.我不想重新创建一个轮子,所以有人可以给一些建议吗?谢谢 解决方 ..

我们是否可以更新 spark-ml/spark-mllib 中的现有模型?

我们正在使用 spark-ml 从现有数据构建模型.每天都有新数据出现. 有没有办法只读取新数据并更新现有模型,而不必每次都读取所有数据并重新训练? 解决方案 这取决于您使用的模型,但对于某些 Spark 完全按照您的要求 想要.你可以看看 StreamingKMeans, StreamingLinearRegressionWithSGD, StreamingLogisticRegr ..
发布时间:2021-11-14 21:03:08 其他开发

如何在没有 DataFrames/SparkContext 的情况下评估 spark.ml 模型?

使用 Spark MLLib,我可以构建一个模型(如 RandomForest),然后可以通过加载模型并使用 predict 在 Spark 之外对其进行评估在它上面传递一个特征向量. 似乎在 Spark ML 中,predict 现在被称为 transform,并且只作用于 DataFrame. 有没有什么方法可以在 Spark 之外构建 DataFrame,因为似乎需要 Spark ..
发布时间:2021-11-14 21:03:05 其他开发

在spark中进行特征选择后使测试数据的特征与训练数据相同

我正在研究 Scala.我有一个大问题, ChiSqSelector 似乎成功地减少了维度,但我无法确定哪些特征被减少了,剩下的部分.我如何知道减少了哪些功能? [WrappedArray(a, b, c),(5,[1,2,3],[1,1,1]),(2,[0],[1])][WrappedArray(b, d, e),(5,[0,2,4],[1,1,2]),(2,[1],[2])][Wrapped ..

在 Apache Spark Python 中自定义 K-means 的距离公式

现在我使用 K-means 进行聚类并遵循 本教程 和 API. 但我想使用自定义公式来计算距离.那么如何使用 PySpark 在 k-means 中传递自定义距离函数? 解决方案 通常使用不同的距离度量没有意义,因为 k-means(与 k-medoids) 算法仅适用于欧几里得距离. 有关解释,请参阅为什么 k-means 聚类算法仅使用欧几里得距离度量?. 此外,M ..

将两个 Spark mllib 管道连接在一起

我有两个独立的 DataFrames,每个都有几个不同的处理阶段,我在管道中使用 mllib 转换器来处理. 我现在想将这两个管道连接在一起,保留每个 DataFrame 的功能(列). Scikit-learn 有 FeatureUnion 类来处理这个问题,我似乎找不到 mllib 的等价物. 我可以在一个管道的末尾添加一个自定义转换器阶段,将另一个管道生成的 DataFra ..
发布时间:2021-11-14 21:02:03 Python

为什么 spark.ml 不实现任何 spark.mllib 算法?

根据 Spark MLlib 指南,我们可以了解到 Spark 有两个机器学习库: spark.mllib,建立在 RDD 之上. spark.ml,建立在 Dataframes 之上. 根据this和这个关于 StackOverflow 的问题,Dataframes 比 RDDs 更好(而且更新),并且应该在任何时候使用可能. 问题是我想使用常见的机器学习算法(例如:频繁模式 ..

使用 PySpark 进行多类分类的逻辑回归问题

我正在尝试使用 Logistic Regression 对特征向量中具有 稀疏向量 的数据集进行分类: 关于完整的代码库和错误日志,请查看我的github repo 案例 1:我尝试使用 ML 的管道如下: # 从 ML 导入的库从 pyspark.ml.feature 导入 HashingTF从 pyspark.ml 导入管道从 pyspark.ml.classification ..

如何将带有 SparseVector 列的 RDD 转换为带有列作为向量的 DataFrame

我有一个带有值元组(String、SparseVector)的 RDD,我想使用 RDD 创建一个 DataFrame.获取 (label:string, features:vector) DataFrame 这是大多数 ml 算法库所需的 Schema.我知道可以这样做,因为 HashingTF ml 库在给定 DataFrame 的特征列时输出一个向量. temp_df = sqlConte ..