apache-spark-ml相关内容
为了构建 NaiveBayes 多类分类器,我使用 CrossValidator 来选择管道中的最佳参数: val cv = new CrossValidator().setEstimator(管道).setEstimatorParamMaps(paramGrid).setEvaluator(新的MulticlassClassificationEvaluator).setNumFolds(10)
..
我正在尝试使用 构建聚类机制 Google Dataproc + Spark Google Bigquery 使用 Spark ML KMeans+pipeline 创建作业 如下: 在 bigquery 中创建基于用户级别的特征表 示例:特征表的样子 用户 ID |x1 |x2 |x3 |x4 |x5 |x6 |x7 |x8 |x9 |x10 00013 |0.01
..
Spark 现在有两个机器学习库 - Spark MLlib 和 Spark ML.它们在实现的内容上确实有些重叠,但据我所知(作为整个 Spark 生态系统的新手)Spark ML 是要走的路,MLlib 仍然存在,主要是为了向后兼容. 我的问题非常具体并且与 PCA 相关.在 MLlib 实现中似乎有一个限制列数 spark.mllib 支持 PCA,用于以行向格式存储的高瘦矩阵和
..
我想用网格搜索和 spark 交叉验证来调整我的模型.在 spark 中,它必须将基础模型放入管道中,管道的office demo 使用LogistictRegression 作为基础模型,它可以是新的对象.但是,RandomForest 模型不能被客户端代码new,因此它似乎无法在管道 api 中使用 RandomForest.我不想重新创建一个轮子,所以有人可以给一些建议吗?谢谢 解决方
..
我想更新我的 pyspark 代码.在pyspark中,它必须将基础模型放入管道中,office demo of pipeline 使用 LogistictRegression 作为基础模型.但是,似乎无法在管道 api 中使用 XGboost 模型.我怎样才能像这样使用 pyspark from xgboost import XGBClassifier...模型 = XGBClassifier
..
我有几个分类特征,并希望使用 OneHotEncoder 将它们全部转换.但是,当我尝试应用 StringIndexer 时,出现错误: stringIndexer = StringIndexer(inputCol = ['a', 'b','c','d'],outputCol = ['a_index', 'b_index','c_index','d_index'])模型 = stringInde
..
我必须使用此代码: val dt = new DecisionTreeClassifier().setLabelCol("indexedLabel").setFeaturesCol("indexedFeatures").setImpurity(impurity).setMaxBins(maxBins).setMaxDepth(最大深度); 我需要添加分类特征信息,以便决策树不会将 indexe
..
我有两个数据集,第一个是大参考数据集,第二个数据集将通过 MinHash 算法从第一个数据集中找到最佳匹配. val dataset1 =+-------------+----------+------+------+----------------------+|x'|y'|'|'|dataString(x'+y'+a')|+-------------+----------+------+--
..
我正在使用代码运行 Bernoulli Naive Bayes: val splits = MyData.randomSplit(Array(0.75, 0.25), seed = 2L)val 训练 = splits(0).cache()val 测试 = 拆分(1)val 模型 = NaiveBayes.train(training, lambda = 3.0, modelType = "be
..
我们正在使用 spark-ml 从现有数据构建模型.每天都有新数据出现. 有没有办法只读取新数据并更新现有模型,而不必每次都读取所有数据并重新训练? 解决方案 这取决于您使用的模型,但对于某些 Spark 完全按照您的要求 想要.你可以看看 StreamingKMeans, StreamingLinearRegressionWithSGD, StreamingLogisticRegr
..
使用 Spark MLLib,我可以构建一个模型(如 RandomForest),然后可以通过加载模型并使用 predict 在 Spark 之外对其进行评估在它上面传递一个特征向量. 似乎在 Spark ML 中,predict 现在被称为 transform,并且只作用于 DataFrame. 有没有什么方法可以在 Spark 之外构建 DataFrame,因为似乎需要 Spark
..
我正在将 CSV 文件(使用 spark-csv)导入到具有空 String 值的 DataFrame 中.当应用 OneHotEncoder 时,应用程序崩溃并出现错误 requirement failed: Cannot have a empty string for name..有没有办法解决这个问题? 我可以重现 Spark ml 上提供的示例中的错误 页面: val df = s
..
我正在研究 Scala.我有一个大问题, ChiSqSelector 似乎成功地减少了维度,但我无法确定哪些特征被减少了,剩下的部分.我如何知道减少了哪些功能? [WrappedArray(a, b, c),(5,[1,2,3],[1,1,1]),(2,[0],[1])][WrappedArray(b, d, e),(5,[0,2,4],[1,1,2]),(2,[1],[2])][Wrapped
..
我是学习 Spark MLlib 的新手.当我阅读二项式逻辑回归的例子时,我不明白“libsvm"的格式类型.(二项逻辑回归) 文本看起来像: 0 128:51 129:159 130:253 131:159 132:50 155:48 156:238 157:252 158:252 159:252 160:237:153:82:252 186:239 187:233 188:252 18
..
现在我使用 K-means 进行聚类并遵循 本教程 和 API. 但我想使用自定义公式来计算距离.那么如何使用 PySpark 在 k-means 中传递自定义距离函数? 解决方案 通常使用不同的距离度量没有意义,因为 k-means(与 k-medoids) 算法仅适用于欧几里得距离. 有关解释,请参阅为什么 k-means 聚类算法仅使用欧几里得距离度量?. 此外,M
..
我有两个独立的 DataFrames,每个都有几个不同的处理阶段,我在管道中使用 mllib 转换器来处理. 我现在想将这两个管道连接在一起,保留每个 DataFrame 的功能(列). Scikit-learn 有 FeatureUnion 类来处理这个问题,我似乎找不到 mllib 的等价物. 我可以在一个管道的末尾添加一个自定义转换器阶段,将另一个管道生成的 DataFra
..
根据 Spark MLlib 指南,我们可以了解到 Spark 有两个机器学习库: spark.mllib,建立在 RDD 之上. spark.ml,建立在 Dataframes 之上. 根据this和这个关于 StackOverflow 的问题,Dataframes 比 RDDs 更好(而且更新),并且应该在任何时候使用可能. 问题是我想使用常见的机器学习算法(例如:频繁模式
..
我正在尝试使用 Logistic Regression 对特征向量中具有 稀疏向量 的数据集进行分类: 关于完整的代码库和错误日志,请查看我的github repo 案例 1:我尝试使用 ML 的管道如下: # 从 ML 导入的库从 pyspark.ml.feature 导入 HashingTF从 pyspark.ml 导入管道从 pyspark.ml.classification
..
我正在预测批量训练模型的过程之间的评分.我正在使用此处概述的方法:ALS 模型 - 如何生成 full_u * v^t * v? !rm -rf ml-1m.zip ml-1m!wget --quiet http://files.grouplens.org/datasets/movielens/ml-1m.zip!解压 ml-1m.zip!mv ml-1m/ratings.dat.从 pyspa
..
我有一个带有值元组(String、SparseVector)的 RDD,我想使用 RDD 创建一个 DataFrame.获取 (label:string, features:vector) DataFrame 这是大多数 ml 算法库所需的 Schema.我知道可以这样做,因为 HashingTF ml 库在给定 DataFrame 的特征列时输出一个向量. temp_df = sqlConte
..