apache-spark-ml 第5页 - IT屋-程序员软件开发技术分享社区

SPARK、ML、Tuning、CrossValidator:访问指标

为了构建 NaiveBayes 多类分类器，我使用 CrossValidator 来选择管道中的最佳参数: val cv = new CrossValidator().setEstimator(管道).setEstimatorParamMaps(paramGrid).setEvaluator(新的MulticlassClassificationEvaluator).setNumFolds(10) ..

发布时间：2021-11-14 21:05:08 apache-spark apache-spark-mllib apache-spark-ml 其他开发

如何将参数传递给 ML Pipeline.fit 方法?

我正在尝试使用构建聚类机制 Google Dataproc + Spark Google Bigquery 使用 Spark ML KMeans+pipeline 创建作业如下: 在 bigquery 中创建基于用户级别的特征表示例:特征表的样子用户 ID |x1 |x2 |x3 |x4 |x5 |x6 |x7 |x8 |x9 |x10 00013 |0.01 ..

发布时间：2021-11-14 21:04:50 python apache-spark pyspark apache-spark-mllib apache-spark-ml Python

Spark MLlib 和 Spark ML 中的 PCA

Spark 现在有两个机器学习库 - Spark MLlib 和 Spark ML.它们在实现的内容上确实有些重叠，但据我所知(作为整个 Spark 生态系统的新手)Spark ML 是要走的路，MLlib 仍然存在，主要是为了向后兼容. 我的问题非常具体并且与 PCA 相关.在 MLlib 实现中似乎有一个限制列数 spark.mllib 支持 PCA，用于以行向格式存储的高瘦矩阵和 ..

发布时间：2021-11-14 21:04:30 apache-spark apache-spark-mllib apache-spark-ml 其他开发

如何在 Spark Pipeline 中使用 RandomForest

我想用网格搜索和 spark 交叉验证来调整我的模型.在 spark 中，它必须将基础模型放入管道中，管道的office demo 使用LogistictRegression 作为基础模型，它可以是新的对象.但是，RandomForest 模型不能被客户端代码new，因此它似乎无法在管道 api 中使用 RandomForest.我不想重新创建一个轮子，所以有人可以给一些建议吗?谢谢解决方 ..

发布时间：2021-11-14 21:04:17 apache-spark apache-spark-mllib pipeline random-forest apache-spark-ml 其他开发

如何在 PySpark 管道中使用 XGboost

我想更新我的 pyspark 代码.在pyspark中，它必须将基础模型放入管道中，office demo of pipeline 使用 LogistictRegression 作为基础模型.但是，似乎无法在管道 api 中使用 XGboost 模型.我怎样才能像这样使用 pyspark from xgboost import XGBClassifier...模型 = XGBClassifier ..

发布时间：2021-11-14 21:04:11 apache-spark pyspark apache-spark-mllib xgboost apache-spark-ml 其他开发

对 SparkMlib 中的几个分类列应用 OneHotEncoder

我有几个分类特征，并希望使用 OneHotEncoder 将它们全部转换.但是，当我尝试应用 StringIndexer 时，出现错误: stringIndexer = StringIndexer(inputCol = ['a', 'b','c','d'],outputCol = ['a_index', 'b_index','c_index','d_index'])模型 = stringInde ..

发布时间：2021-11-14 21:03:43 python apache-spark pyspark apache-spark-mllib apache-spark-ml Python

在 Spark 中使用 CategoricalFeaturesInfo 和 DecisionTreeClassifier 方法

我必须使用此代码: val dt = new DecisionTreeClassifier().setLabelCol("indexedLabel").setFeaturesCol("indexedFeatures").setImpurity(impurity).setMaxBins(maxBins).setMaxDepth(最大深度)；我需要添加分类特征信息，以便决策树不会将 indexe ..

发布时间：2021-11-14 21:03:30 apache-spark apache-spark-mllib decision-tree apache-spark-ml 其他开发

MinHash Spark ML 中 OR 条件的字符串相似度

我有两个数据集，第一个是大参考数据集，第二个数据集将通过 MinHash 算法从第一个数据集中找到最佳匹配. val dataset1 =+-------------+----------+------+------+----------------------+|x'|y'|'|'|dataString(x'+y'+a')|+-------------+----------+------+-- ..

发布时间：2021-11-14 21:03:21 scala apache-spark apache-spark-mllib apache-spark-ml minhash 其他开发

Spark:如何获得伯努利朴素贝叶斯的概率和 AUC?

我正在使用代码运行 Bernoulli Naive Bayes: val splits = MyData.randomSplit(Array(0.75, 0.25), seed = 2L)val 训练 = splits(0).cache()val 测试 = 拆分(1)val 模型 = NaiveBayes.train(training, lambda = 3.0, modelType = "be ..

发布时间：2021-11-14 21:03:20 apache-spark pyspark apache-spark-mllib naivebayes apache-spark-ml 其他开发

我们是否可以更新 spark-ml/spark-mllib 中的现有模型?

我们正在使用 spark-ml 从现有数据构建模型.每天都有新数据出现. 有没有办法只读取新数据并更新现有模型，而不必每次都读取所有数据并重新训练? 解决方案这取决于您使用的模型，但对于某些 Spark 完全按照您的要求想要.你可以看看 StreamingKMeans, StreamingLinearRegressionWithSGD, StreamingLogisticRegr ..

发布时间：2021-11-14 21:03:08 apache-spark apache-spark-mllib apache-spark-ml 其他开发

如何在没有 DataFrames/SparkContext 的情况下评估 spark.ml 模型?

使用 Spark MLLib，我可以构建一个模型(如 RandomForest)，然后可以通过加载模型并使用 predict 在 Spark 之外对其进行评估在它上面传递一个特征向量. 似乎在 Spark ML 中，predict 现在被称为 transform，并且只作用于 DataFrame. 有没有什么方法可以在 Spark 之外构建 DataFrame，因为似乎需要 Spark ..

发布时间：2021-11-14 21:03:05 apache-spark apache-spark-mllib apache-spark-ml 其他开发

Spark DataFrame 在 OneHotEncoder 中处理空字符串

我正在将 CSV 文件(使用 spark-csv)导入到具有空 String 值的 DataFrame 中.当应用 OneHotEncoder 时，应用程序崩溃并出现错误 requirement failed: Cannot have a empty string for name..有没有办法解决这个问题? 我可以重现 Spark ml 上提供的示例中的错误页面: val df = s ..

发布时间：2021-11-14 21:02:43 scala apache-spark apache-spark-mllib apache-spark-ml spark-csv 其他开发

在spark中进行特征选择后使测试数据的特征与训练数据相同

我正在研究 Scala.我有一个大问题， ChiSqSelector 似乎成功地减少了维度，但我无法确定哪些特征被减少了，剩下的部分.我如何知道减少了哪些功能? [WrappedArray(a, b, c),(5,[1,2,3],[1,1,1]),(2,[0],[1])][WrappedArray(b, d, e),(5,[0,2,4],[1,1,2]),(2,[1],[2])][Wrapped ..

发布时间：2021-11-14 21:02:31 scala apache-spark feature-selection apache-spark-mllib apache-spark-ml 其他开发

如何理解Spark MLlib的libsvm的格式类型?

我是学习 Spark MLlib 的新手.当我阅读二项式逻辑回归的例子时，我不明白“libsvm"的格式类型.(二项逻辑回归) 文本看起来像: 0 128:51 129:159 130:253 131:159 132:50 155:48 156:238 157:252 158:252 159:252 160:237:153:82:252 186:239 187:233 188:252 18 ..

发布时间：2021-11-14 21:02:25 apache-spark apache-spark-mllib libsvm apache-spark-ml 其他开发

在 Apache Spark Python 中自定义 K-means 的距离公式

现在我使用 K-means 进行聚类并遵循本教程和 API. 但我想使用自定义公式来计算距离.那么如何使用 PySpark 在 k-means 中传递自定义距离函数? 解决方案通常使用不同的距离度量没有意义，因为 k-means(与 k-medoids) 算法仅适用于欧几里得距离. 有关解释，请参阅为什么 k-means 聚类算法仅使用欧几里得距离度量?. 此外，M ..

发布时间：2021-11-14 21:02:22 apache-spark k-means apache-spark-mllib apache-spark-ml 其他开发

将两个 Spark mllib 管道连接在一起

我有两个独立的 DataFrames，每个都有几个不同的处理阶段，我在管道中使用 mllib 转换器来处理. 我现在想将这两个管道连接在一起，保留每个 DataFrame 的功能(列). Scikit-learn 有 FeatureUnion 类来处理这个问题，我似乎找不到 mllib 的等价物. 我可以在一个管道的末尾添加一个自定义转换器阶段，将另一个管道生成的 DataFra ..

发布时间：2021-11-14 21:02:03 python scala apache-spark apache-spark-mllib apache-spark-ml Python

为什么 spark.ml 不实现任何 spark.mllib 算法?

根据 Spark MLlib 指南，我们可以了解到 Spark 有两个机器学习库: spark.mllib，建立在 RDD 之上. spark.ml，建立在 Dataframes 之上. 根据this和这个关于 StackOverflow 的问题，Dataframes 比 RDDs 更好(而且更新)，并且应该在任何时候使用可能. 问题是我想使用常见的机器学习算法(例如:频繁模式 ..

发布时间：2021-11-14 21:01:48 machine-learning apache-spark pyspark apache-spark-mllib apache-spark-ml AI人工智能

使用 PySpark 进行多类分类的逻辑回归问题

我正在尝试使用 Logistic Regression 对特征向量中具有稀疏向量的数据集进行分类: 关于完整的代码库和错误日志，请查看我的github repo 案例 1:我尝试使用 ML 的管道如下: # 从 ML 导入的库从 pyspark.ml.feature 导入 HashingTF从 pyspark.ml 导入管道从 pyspark.ml.classification ..

发布时间：2021-11-14 21:01:31 apache-spark pyspark apache-spark-mllib logistic-regression apache-spark-ml 其他开发

ALS 模型 - 预测 full_u * v^t * v 评分非常高

我正在预测批量训练模型的过程之间的评分.我正在使用此处概述的方法:ALS 模型 - 如何生成 full_u * v^t * v? ！rm -rf ml-1m.zip ml-1m！wget --quiet http://files.grouplens.org/datasets/movielens/ml-1m.zip！解压 ml-1m.zip！mv ml-1m/ratings.dat.从 pyspa ..

发布时间：2021-11-14 21:01:21 apache-spark apache-spark-mllib apache-spark-ml 其他开发

如何将带有 SparseVector 列的 RDD 转换为带有列作为向量的 DataFrame

我有一个带有值元组(String、SparseVector)的 RDD，我想使用 RDD 创建一个 DataFrame.获取 (label:string, features:vector) DataFrame 这是大多数 ml 算法库所需的 Schema.我知道可以这样做，因为 HashingTF ml 库在给定 DataFrame 的特征列时输出一个向量. temp_df = sqlConte ..

发布时间：2021-11-14 21:01:08 apache-spark pyspark apache-spark-sql apache-spark-mllib apache-spark-ml 其他开发

apache-spark-ml相关内容