apache-spark-mllib相关内容

Spark MLLib 中 Kmeans++ 中的初始化步骤参数究竟是什么?

我知道 k-means 是什么,我也知道 k-means++ 算法是什么.我相信唯一的变化是找到初始 K 中心的方式. 在 ++ 版本中,我们最初选择一个中心,然后使用概率分布选择剩余的 k-1 个中心. 在 k-means 的 MLLib 算法中,initializationSteps 参数是什么? 解决方案 准确地说,k-means++ 是一种选择初始中心的算法,它并没有描 ..

如何使用 NNLS 进行非负多元线性回归?

我正在尝试用 Java 解决非负多元线性回归问题.我找到了一个求解器类 org.apache.spark.mllib.optimization.NNLS 用 Scala 编写.但是,我不知道如何使用它. 让我困惑的是,下面这个方法的界面看起来很奇怪.我认为 A 是一个 MxN 矩阵,b 是一个 M 向量,参数 ata 和 atb应该分别是 NxN 矩阵和 N 向量.然而,ata的实际类型是d ..
发布时间:2021-11-14 21:12:23 Java开发

在 PySpark 中运行 KMeans 聚类

这是我第一次尝试在 Spark 中运行 KMeans 聚类分析,所以,很抱歉问一个愚蠢的问题. 我有一个包含许多列的 spark 数据框 mydataframe.我只想在两列上运行 kmeans:lat 和 long(纬度和经度),将它们用作简单值.我想仅基于那 2 列提取 7 个集群.我试过了: from numpy import array从数学导入 sqrt从 pyspark.mll ..
发布时间:2021-11-14 21:12:20 其他开发

model.getVectors().keys() 会返回模型中的所有键吗

以下是示例代码.我正在尝试获取 newfile.txt (包含新闻文章的文件)中所有单词的向量表示.想知道 model.getVectors().keys() 是否输出所有键(文件中的不同单词)或是否将输出限制为特定数量. 虽然我的输入确实有很多,但目前我只得到几个词作为关键.它是如何工作的? doc = sc.textFile('newfile.txt').map(lambda line ..
发布时间:2021-11-14 21:12:17 其他开发

java.lang.NoSuchMethodException: .(java.lang.String) 复制自定义 Transformer 时

目前正在使用 spark 2.0.1 和 2.2.1 在我的 spark-shell 中使用自定义转换器. 在编写自定义 ml 转换器时,为了将其添加到管道中,我注意到复制方法的覆盖存在问题. 复制方法在我的例子中被 TrainValidationSplit 的 fit 方法调用. 我得到的错误: java.lang.NoSuchMethodException: Custom. ..

PrefixSpan 序列提取误区

我在代表窗口序列的列表中有一组大小为 3 的元组.我需要的是使用 pyspask 能够获得(给定元组的前两个部分)第三个. 所以我需要它根据频率创建三个元素的序列. 这就是我正在做的: data = [[['a','b','c'],['b','c','d'],['c','d','e'],['d','e','f'],['e','f','g'],['f','g','h'],['a','b ..
发布时间:2021-11-14 21:12:05 Python

无法将数据框转换为标记点

我的程序使用 Spark.ML,我在数据帧上使用逻辑回归.但是我也想使用 LogisticRegressionWithLBFGS,所以我想将我的数据帧转换为 LabeledPoint. 下面的代码给了我一个错误 val model = new LogisticRegressionWithLBFGS().run(dff3.rdd.map(row=>LabeledPoint(row.getAs ..
发布时间:2021-11-14 21:12:02 其他开发

为什么 foreachRDD 不使用 StreamingContext.textFileStream 用新内容填充 DataFrame?

我的问题是,当我将代码更改为流模式并将数据框放入 foreach 循环时,数据框显示为空表!我不填!我也不能把它放到 assembler.transform() 中.错误是: Error:(38, 40) not enough arguments for method map: (mapFunc: String => U)(implicit evidence$2: scala.reflect.C ..

PySpark 中是否有与 scikit-learn 的 sample_weight 等效的参数?

我目前正在使用 scikit-learn 库提供的 SGDClassifier.当我使用 fit 方法时,我可以设置 sample_weight 参数: 应用于单个样本的权重.如果没有提供,统一假设权重.这些权重将乘以class_weight(通过构造函数传递)如果 class_weight 是指定 我想切换到 PySpark 并使用 LogisticRegression 类.无论如何 ..

PySpark 中是否有与 scikit-learn 的 sample_weight 等效的参数?

我目前正在使用 scikit-learn 库提供的 SGDClassifier.当我使用 fit 方法时,我可以设置 sample_weight 参数: 应用于单个样本的权重.如果没有提供,统一假设权重.这些权重将乘以class_weight(通过构造函数传递)如果 class_weight 是指定 我想切换到 PySpark 并使用 LogisticRegression 类.无论如何 ..

PrefixSpan 序列提取误区

我在代表窗口序列的列表中有一组大小为 3 的元组.我需要的是使用 pyspask 能够获得(给定元组的前两个部分)第三个. 所以我需要它根据频率创建三个元素的序列. 这就是我正在做的: data = [[['a','b','c'],['b','c','d'],['c','d','e'],['d','e','f'],['e','f','g'],['f','g','h'],['a','b ..
发布时间:2021-11-14 21:11:42 Python