apache-spark-mllib相关内容

带有流源的查询必须使用 writeStream.start(); 执行;

我正在尝试使用 Spark 结构化流式传输从 Kafka 读取数据并预测表单传入数据.我正在使用我使用 Spark ML 训练过的模型. val spark = SparkSession.builder().appName("Spark SQL 基本示例").master("本地").getOrCreate()导入 spark.implicits._val toString = udf((pay ..

使用基于 Spark 数据集的 ML API 时初始化逻辑回归系数?

默认情况下,逻辑回归训练将系数初始化为全零.但是,我想自己初始化系数.这将很有用,例如,如果之前的训练运行在多次迭代后崩溃——我可以简单地使用最后一组已知的系数重新开始训练. 是否可以使用任何基于数据集/数据帧的 API,最好是 Scala? 看Spark源码,好像有一个方法setInitialModel来初始化模型及其系数,MLlib.幸运的是,同一个包中的其他类不会被着色. ..
发布时间:2021-11-14 21:10:25 其他开发

仅将 Spark ML 管道用于转换

我正在从事一个项目,在该项目中,可配置的管道和对 Spark DataFrame 更改的沿袭跟踪都是必不可少的.此管道的端点通常只是修改后的 DataFrame(将其视为 ETL 任务).对我来说最有意义的是利用现有的 Spark ML Pipeline API 来跟踪这些更改.特别是,更改(基于其他人添加列等)是作为自定义 Spark ML Transformer 实现的. 但是,我们现在 ..
发布时间:2021-11-14 21:10:16 其他开发

如何使用 Spark MlLib/Pipelines 为每个用户构建 1 个模型

我想为数据集中的每个用户训练不同的模型.Spark MlLib/Pipelines 中是否有内置支持? 如果不是,为每个用户训练多个独立模型的最简单/最简洁的方法是什么? 解决方案 遗憾的是 Spark-ML 没有提供分离概念“单一模型 - 单一用户"的能力.但是您可以根据需要制作自定义逻辑.我看到解决此任务的两种可能变体.解决这种情况的第一个场景是遵循下一个算法(我以一切为例-您将 ..
发布时间:2021-11-14 21:10:13 其他开发

在 Spark 中堆叠 ML 算法

是否有用于在 spark 中构建堆叠集成的 spark api 还是应该从头开始构建它们?我还没有在网上找到关于这个主题的任何资源 解决方案 正如 AKSW 的评论中所说,在当前的 Apache Spark MLlib 中只有两种 Ensemble Models 的具体实现,它们是 随机森林 用于装袋和 梯度提升树用于提升. 对于堆叠部分,我认为您在 MLlib 上找不到任何东西,您 ..

我应该如何将 org.apache.spark.ml.linalg.Vector 的 RDD 转换为数据集?

我正在努力理解 RDD、DataSet 和 DataFrame 之间的转换是如何工作的.我对 Spark 很陌生,每次我需要从数据模型传递到另一个数据模型(尤其是从 RDD 到数据集和数据帧)时,我都会卡住.谁能给我解释一下正确的做法? 举个例子,现在我有一个 RDD[org.apache.spark.ml.linalg.Vector] 并且我需要将它传递给我的机器学习算法,例如一个 KMe ..

使用 Spark LogisticRegressionWithLBFGS 进行多类分类的预测概率

我正在使用 LogisticRegressionWithLBFGS() 来训练具有多个类别的模型. 从mllib 中的文档中可以看出,clearThreshold() 仅在分类为二进制时才能使用.有没有办法在多类分类中使用类似的东西,以便在模型的给定输入中输出每个类的概率? 解决方案 有两种方法可以实现这一点.一种是在LogisticRegression.scala object ..

如何使用 Scala 在 Spark 中声明一个稀疏向量?

我正在尝试创建一个稀疏向量(mllib.linalg.Vectors 类,不是默认的),但我不明白如何使用 Seq.我有一个包含三个数字/行的小型测试文件,我将其转换为 rdd,将文本分成双份,然后按第一列对行进行分组. 测试文件 1 2 41 3 51 4 82 7 52 8 42 9 10 代码 val data = sc.textFile("/home/savvas/DWDM/t ..
发布时间:2021-11-14 21:09:53 其他开发

Spark MLLib 的问题导致概率和预测对所有事物都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用,目的是对推文进行情感分析.我从这里得到了一个情绪分析数据集:http://thinknook.com/wp-content/uploads/2012/09/Sentiment-Analysis-Dataset.zip 该数据集包含 100 万条分类为正面或负面的推文.该数据集的第二列包含情绪,第四列包含推文. 这是我当前的 ..

在 spark mllib 分类器中处理 null/NaN 值

我有一组分类列(字符串),我正在解析它们并将其转换为特征向量以传递给 mllib 分类器(随机森林). 在我的输入数据中,某些列具有空值.说,在其中一列中,我有 p 值 + 一个空值:我应该如何构建我的特征向量和分类器的 categoricalFeaturesInfo 地图? 选项 1:我在 categoricalFeaturesInfo 中告诉 p 值,并在我的输入 Vectors ..

Spark 的 StreamingLinearRegressionWithSGD 是如何工作的?

我正在研究 StreamingLinearRegressionWithSGD 有两种方法 trainOn 和 predictOn.这个类有一个 model 对象,随着训练数据到达 trainOn 参数中指定的流而更新. 同时使用相同的模型进行预测. 我想知道模型权重如何在工作人员/执行程序之间更新和同步. 任何链接或参考都会有所帮助.谢谢. 解决方案 这里没有魔法.Str ..
发布时间:2021-11-14 21:09:26 其他开发