apache-spark-mllib 第6页 - IT屋-程序员软件开发技术分享社区

如何获得 Spark Naive Bayes 分类器中类的概率?

我正在 Spark 中训练 NaiveBayesModel，但是当我使用它来预测新实例时，我需要获得每个类的概率.我查看了 NaiveBayesModel 中预测函数的代码，得出如下代码: val thetaMatrix = new DenseMatrix (model.labels.length,model.theta(0).length,model.theta.flatten,true)va ..

发布时间：2021-11-14 21:10:32 apache-spark apache-spark-mllib naivebayes 其他开发

带有流源的查询必须使用 writeStream.start(); 执行；

我正在尝试使用 Spark 结构化流式传输从 Kafka 读取数据并预测表单传入数据.我正在使用我使用 Spark ML 训练过的模型. val spark = SparkSession.builder().appName("Spark SQL 基本示例").master("本地").getOrCreate()导入 spark.implicits._val toString = udf((pay ..

发布时间：2021-11-14 21:10:29 apache-spark spark-streaming apache-spark-mllib apache-spark-ml spark-structured-streaming 其他开发

使用基于 Spark 数据集的 ML API 时初始化逻辑回归系数?

默认情况下，逻辑回归训练将系数初始化为全零.但是，我想自己初始化系数.这将很有用，例如，如果之前的训练运行在多次迭代后崩溃——我可以简单地使用最后一组已知的系数重新开始训练. 是否可以使用任何基于数据集/数据帧的 API，最好是 Scala? 看Spark源码，好像有一个方法setInitialModel来初始化模型及其系数，MLlib.幸运的是，同一个包中的其他类不会被着色. ..

发布时间：2021-11-14 21:10:25 apache-spark apache-spark-mllib apache-spark-ml 其他开发

如何在 ML Pipeline 中访问底层模型的参数?

我有一个使用 LinearRegression 处理的 DataFrame.如果我直接这样做，如下所示，我可以显示模型的详细信息: val lr = new LinearRegression()val lrModel = lr.fit(df)lrModel: org.apache.spark.ml.regression.LinearRegressionModel = linReg_b22a7bb ..

发布时间：2021-11-14 21:10:22 scala apache-spark apache-spark-mllib 其他开发

如何使用 Java 在 Spark 中组合或合并两个稀疏向量?

我使用了 Java 的 API，即 Apache-Spark 1.2.0，并创建了两个解析向量，如下所示. Vector v1 = Vectors.sparse(3, new int[]{0, 2}, new double[]{1.0, 3.0});Vector v2 = Vectors.sparse(2, new int[]{0, 1}, new double[]{4,5}); 如何得到v1 ..

发布时间：2021-11-14 21:10:19 java apache-spark sparse-matrix apache-spark-mllib Java开发

仅将 Spark ML 管道用于转换

我正在从事一个项目，在该项目中，可配置的管道和对 Spark DataFrame 更改的沿袭跟踪都是必不可少的.此管道的端点通常只是修改后的 DataFrame(将其视为 ETL 任务).对我来说最有意义的是利用现有的 Spark ML Pipeline API 来跟踪这些更改.特别是，更改(基于其他人添加列等)是作为自定义 Spark ML Transformer 实现的. 但是，我们现在 ..

发布时间：2021-11-14 21:10:16 apache-spark apache-spark-mllib apache-spark-ml 其他开发

如何使用 Spark MlLib/Pipelines 为每个用户构建 1 个模型

我想为数据集中的每个用户训练不同的模型.Spark MlLib/Pipelines 中是否有内置支持? 如果不是，为每个用户训练多个独立模型的最简单/最简洁的方法是什么? 解决方案遗憾的是 Spark-ML 没有提供分离概念“单一模型 - 单一用户"的能力.但是您可以根据需要制作自定义逻辑.我看到解决此任务的两种可能变体.解决这种情况的第一个场景是遵循下一个算法(我以一切为例-您将 ..

发布时间：2021-11-14 21:10:13 scala apache-spark apache-spark-mllib 其他开发

在 Spark 中堆叠 ML 算法

是否有用于在 spark 中构建堆叠集成的 spark api 还是应该从头开始构建它们?我还没有在网上找到关于这个主题的任何资源解决方案正如 AKSW 的评论中所说，在当前的 Apache Spark MLlib 中只有两种 Ensemble Models 的具体实现，它们是随机森林用于装袋和梯度提升树用于提升. 对于堆叠部分，我认为您在 MLlib 上找不到任何东西，您 ..

发布时间：2021-11-14 21:10:10 python apache-spark pyspark apache-spark-mllib ensemble-learning Python

我应该如何将 org.apache.spark.ml.linalg.Vector 的 RDD 转换为数据集?

我正在努力理解 RDD、DataSet 和 DataFrame 之间的转换是如何工作的.我对 Spark 很陌生，每次我需要从数据模型传递到另一个数据模型(尤其是从 RDD 到数据集和数据帧)时，我都会卡住.谁能给我解释一下正确的做法? 举个例子，现在我有一个 RDD[org.apache.spark.ml.linalg.Vector] 并且我需要将它传递给我的机器学习算法，例如一个 KMe ..

发布时间：2021-11-14 21:10:07 apache-spark apache-spark-sql rdd apache-spark-mllib apache-spark-dataset 其他开发

使用 Spark LogisticRegressionWithLBFGS 进行多类分类的预测概率

我正在使用 LogisticRegressionWithLBFGS() 来训练具有多个类别的模型. 从mllib 中的文档中可以看出，clearThreshold() 仅在分类为二进制时才能使用.有没有办法在多类分类中使用类似的东西，以便在模型的给定输入中输出每个类的概率? 解决方案有两种方法可以实现这一点.一种是在LogisticRegression.scala object ..

发布时间：2021-11-14 21:10:05 apache-spark pyspark logistic-regression apache-spark-mllib 其他开发

如何在 pyspark 管道中打印最佳模型参数

这个问题类似于这个问题.我想在 pyspark 中执行 TrainValidationSplit 后打印最佳模型参数.我找不到其他用户用来回答问题的文本，因为我正在使用 jupyter 并且日志从终端消失了... 部分代码是: pca = PCA(inputCol = 'features')dt = DecisionTreeRegressor(featuresCol=pca.getOutp ..

发布时间：2021-11-14 21:09:59 python apache-spark pyspark apache-spark-mllib Python

如何使用 Scala 在 Spark 中声明一个稀疏向量?

我正在尝试创建一个稀疏向量(mllib.linalg.Vectors 类，不是默认的)，但我不明白如何使用 Seq.我有一个包含三个数字/行的小型测试文件，我将其转换为 rdd，将文本分成双份，然后按第一列对行进行分组. 测试文件 1 2 41 3 51 4 82 7 52 8 42 9 10 代码 val data = sc.textFile("/home/savvas/DWDM/t ..

发布时间：2021-11-14 21:09:53 scala apache-spark seq apache-spark-mllib 其他开发

SPARK:如何为来自 LabeledPoint 的决策树创建 categoricalFeaturesInfo?

我有一个关于女巫的 LabeledPoint 我想运行决策树(以及后来的随机森林) scala>转换后的数据收集res8: Array[org.apache.spark.mllib.regression.LabeledPoint] = Array((0.0,(400036,[7744],[2.0])), (0.0,(400036,[7744,8608],[3.0,3.0])), (0.0,(40 ..

发布时间：2021-11-14 21:09:50 scala apache-spark random-forest decision-tree apache-spark-mllib 其他开发

spark管道向量汇编程序删除其他列

火花 VectorAssembler http://spark.apache.org/docs/latest/ml-features.html#vectorassembler 产生以下输出 id |小时 |移动|用户功能 |点击 |特征----|------|--------|------------------------|---------|------------------------- ..

发布时间：2021-11-14 21:09:46 apache-spark vector pipeline apache-spark-mllib 其他开发

从 DataFrame 转换为 JavaPairRDD

我正在尝试使用带有 Java API 的 apache spark 来实现 LDA 算法.方法 LDA().run() 接受参数 JavaPairRDD 文件.我使用 Scala 来创建 RDD[(Long, Vector)] 如下: val countVectors = cvModel.transform(filteredTokens).select("docId", "功能").map { ..

发布时间：2021-11-14 21:09:43 java apache-spark apache-spark-mllib Java开发

Spark MLLib 的问题导致概率和预测对所有事物都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用，目的是对推文进行情感分析.我从这里得到了一个情绪分析数据集:http://thinknook.com/wp-content/uploads/2012/09/Sentiment-Analysis-Dataset.zip 该数据集包含 100 万条分类为正面或负面的推文.该数据集的第二列包含情绪，第四列包含推文. 这是我当前的 ..

发布时间：2021-11-14 21:09:40 python hadoop apache-spark apache-spark-mllib sentiment-analysis Python

';'预期但找到“导入" - Scala 和 Spark

我正在尝试使用 Spark 和 Scala，编译一个独立的应用程序.我不知道为什么会出现此错误: topicModel.scala:2: ';'预期但找到“导入".[错误] 导入 org.apache.spark.mllib.clustering.LDA[错误]^[错误] 发现一个错误[错误] (compile:compileIncremental) 编译失败这是 build.sbt 代 ..

发布时间：2021-11-14 21:09:37 scala apache-spark compiler-errors apache-spark-mllib 其他开发

如何将模型的结果保存到文本文件?

我正在尝试将模型生成的频繁项集保存到文本文件中.该代码是 Spark ML 库中 FPGrowth 示例的示例. 直接在模型上使用 saveAsTextFile 写入 RDD 位置而不是实际值. import org.apache.spark.mllib.fpm.FPGrowth导入 org.apache.spark.rdd.RDDval data = sc.textFile("/home ..

发布时间：2021-11-14 21:09:33 scala apache-spark apache-spark-mllib 其他开发

在 spark mllib 分类器中处理 null/NaN 值

我有一组分类列(字符串)，我正在解析它们并将其转换为特征向量以传递给 mllib 分类器(随机森林). 在我的输入数据中，某些列具有空值.说，在其中一列中，我有 p 值 + 一个空值:我应该如何构建我的特征向量和分类器的 categoricalFeaturesInfo 地图? 选项 1:我在 categoricalFeaturesInfo 中告诉 p 值，并在我的输入 Vectors ..

发布时间：2021-11-14 21:09:30 apache-spark classification random-forest apache-spark-mllib 其他开发

Spark 的 StreamingLinearRegressionWithSGD 是如何工作的?

我正在研究 StreamingLinearRegressionWithSGD 有两种方法 trainOn 和 predictOn.这个类有一个 model 对象，随着训练数据到达 trainOn 参数中指定的流而更新. 同时使用相同的模型进行预测. 我想知道模型权重如何在工作人员/执行程序之间更新和同步. 任何链接或参考都会有所帮助.谢谢. 解决方案这里没有魔法.Str ..

发布时间：2021-11-14 21:09:26 apache-spark linear-regression apache-spark-mllib 其他开发

apache-spark-mllib相关内容