apache-spark-mllib相关内容
我正在 Spark 中训练 NaiveBayesModel,但是当我使用它来预测新实例时,我需要获得每个类的概率.我查看了 NaiveBayesModel 中预测函数的代码,得出如下代码: val thetaMatrix = new DenseMatrix (model.labels.length,model.theta(0).length,model.theta.flatten,true)va
..
我正在尝试使用 Spark 结构化流式传输从 Kafka 读取数据并预测表单传入数据.我正在使用我使用 Spark ML 训练过的模型. val spark = SparkSession.builder().appName("Spark SQL 基本示例").master("本地").getOrCreate()导入 spark.implicits._val toString = udf((pay
..
默认情况下,逻辑回归训练将系数初始化为全零.但是,我想自己初始化系数.这将很有用,例如,如果之前的训练运行在多次迭代后崩溃——我可以简单地使用最后一组已知的系数重新开始训练. 是否可以使用任何基于数据集/数据帧的 API,最好是 Scala? 看Spark源码,好像有一个方法setInitialModel来初始化模型及其系数,MLlib.幸运的是,同一个包中的其他类不会被着色.
..
我有一个使用 LinearRegression 处理的 DataFrame.如果我直接这样做,如下所示,我可以显示模型的详细信息: val lr = new LinearRegression()val lrModel = lr.fit(df)lrModel: org.apache.spark.ml.regression.LinearRegressionModel = linReg_b22a7bb
..
我使用了 Java 的 API,即 Apache-Spark 1.2.0,并创建了两个解析向量,如下所示. Vector v1 = Vectors.sparse(3, new int[]{0, 2}, new double[]{1.0, 3.0});Vector v2 = Vectors.sparse(2, new int[]{0, 1}, new double[]{4,5}); 如何得到v1
..
我正在从事一个项目,在该项目中,可配置的管道和对 Spark DataFrame 更改的沿袭跟踪都是必不可少的.此管道的端点通常只是修改后的 DataFrame(将其视为 ETL 任务).对我来说最有意义的是利用现有的 Spark ML Pipeline API 来跟踪这些更改.特别是,更改(基于其他人添加列等)是作为自定义 Spark ML Transformer 实现的. 但是,我们现在
..
我想为数据集中的每个用户训练不同的模型.Spark MlLib/Pipelines 中是否有内置支持? 如果不是,为每个用户训练多个独立模型的最简单/最简洁的方法是什么? 解决方案 遗憾的是 Spark-ML 没有提供分离概念“单一模型 - 单一用户"的能力.但是您可以根据需要制作自定义逻辑.我看到解决此任务的两种可能变体.解决这种情况的第一个场景是遵循下一个算法(我以一切为例-您将
..
是否有用于在 spark 中构建堆叠集成的 spark api 还是应该从头开始构建它们?我还没有在网上找到关于这个主题的任何资源 解决方案 正如 AKSW 的评论中所说,在当前的 Apache Spark MLlib 中只有两种 Ensemble Models 的具体实现,它们是 随机森林 用于装袋和 梯度提升树用于提升. 对于堆叠部分,我认为您在 MLlib 上找不到任何东西,您
..
我正在努力理解 RDD、DataSet 和 DataFrame 之间的转换是如何工作的.我对 Spark 很陌生,每次我需要从数据模型传递到另一个数据模型(尤其是从 RDD 到数据集和数据帧)时,我都会卡住.谁能给我解释一下正确的做法? 举个例子,现在我有一个 RDD[org.apache.spark.ml.linalg.Vector] 并且我需要将它传递给我的机器学习算法,例如一个 KMe
..
我正在使用 LogisticRegressionWithLBFGS() 来训练具有多个类别的模型. 从mllib 中的文档中可以看出,clearThreshold() 仅在分类为二进制时才能使用.有没有办法在多类分类中使用类似的东西,以便在模型的给定输入中输出每个类的概率? 解决方案 有两种方法可以实现这一点.一种是在LogisticRegression.scala object
..
这个问题类似于这个问题.我想在 pyspark 中执行 TrainValidationSplit 后打印最佳模型参数.我找不到其他用户用来回答问题的文本,因为我正在使用 jupyter 并且日志从终端消失了... 部分代码是: pca = PCA(inputCol = 'features')dt = DecisionTreeRegressor(featuresCol=pca.getOutp
..
我正在尝试创建一个稀疏向量(mllib.linalg.Vectors 类,不是默认的),但我不明白如何使用 Seq.我有一个包含三个数字/行的小型测试文件,我将其转换为 rdd,将文本分成双份,然后按第一列对行进行分组. 测试文件 1 2 41 3 51 4 82 7 52 8 42 9 10 代码 val data = sc.textFile("/home/savvas/DWDM/t
..
我有一个关于女巫的 LabeledPoint 我想运行决策树(以及后来的随机森林) scala>转换后的数据收集res8: Array[org.apache.spark.mllib.regression.LabeledPoint] = Array((0.0,(400036,[7744],[2.0])), (0.0,(400036,[7744,8608],[3.0,3.0])), (0.0,(40
..
火花 VectorAssembler http://spark.apache.org/docs/latest/ml-features.html#vectorassembler 产生以下输出 id |小时 |移动|用户功能 |点击 |特征----|------|--------|------------------------|---------|-------------------------
..
我正在尝试使用带有 Java API 的 apache spark 来实现 LDA 算法.方法 LDA().run() 接受参数 JavaPairRDD 文件.我使用 Scala 来创建 RDD[(Long, Vector)] 如下: val countVectors = cvModel.transform(filteredTokens).select("docId", "功能").map {
..
我正在学习如何将机器学习与 Spark MLLib 结合使用,目的是对推文进行情感分析.我从这里得到了一个情绪分析数据集:http://thinknook.com/wp-content/uploads/2012/09/Sentiment-Analysis-Dataset.zip 该数据集包含 100 万条分类为正面或负面的推文.该数据集的第二列包含情绪,第四列包含推文. 这是我当前的
..
我正在尝试使用 Spark 和 Scala,编译一个独立的应用程序.我不知道为什么会出现此错误: topicModel.scala:2: ';'预期但找到“导入".[错误] 导入 org.apache.spark.mllib.clustering.LDA[错误]^[错误] 发现一个错误[错误] (compile:compileIncremental) 编译失败 这是 build.sbt 代
..
我正在尝试将模型生成的频繁项集保存到文本文件中.该代码是 Spark ML 库中 FPGrowth 示例的示例. 直接在模型上使用 saveAsTextFile 写入 RDD 位置而不是实际值. import org.apache.spark.mllib.fpm.FPGrowth导入 org.apache.spark.rdd.RDDval data = sc.textFile("/home
..
我有一组分类列(字符串),我正在解析它们并将其转换为特征向量以传递给 mllib 分类器(随机森林). 在我的输入数据中,某些列具有空值.说,在其中一列中,我有 p 值 + 一个空值:我应该如何构建我的特征向量和分类器的 categoricalFeaturesInfo 地图? 选项 1:我在 categoricalFeaturesInfo 中告诉 p 值,并在我的输入 Vectors
..
我正在研究 StreamingLinearRegressionWithSGD 有两种方法 trainOn 和 predictOn.这个类有一个 model 对象,随着训练数据到达 trainOn 参数中指定的流而更新. 同时使用相同的模型进行预测. 我想知道模型权重如何在工作人员/执行程序之间更新和同步. 任何链接或参考都会有所帮助.谢谢. 解决方案 这里没有魔法.Str
..