apache-spark-mllib相关内容
正如问题所说,org.apache.spark.ml 中是否有任何相当于 Spark org.apache.spark.mllib.tree.model.DecisionTreeClassificationModel.toDebugString() 的东西.分类.决策树分类模型 我已经浏览了后者的 API 文档,发现这个方法 rootNode() 返回一个 org.apache.spark.
..
我正在使用 Spark Mlib 训练数据以使用随机森林算法进行分类.MLib 提供了一个 RandomForest 类,该类具有 trainClassifier 方法,可以执行所需的操作. 我可以在训练数据集时设置阈值吗,类似于 R 的 randomForest 包中提供的 cutoff 选项. http://cran.r-project.org/web/包/randomForest
..
我正在尝试运行此处提供的 CountVectorizerDemo 程序: https://github.com/apache/spark/blob/master/examples/src/main/java/org/apache/spark/examples/ml/JavaCountVectorizerExample.java 我收到以下错误,但不知道问题出在哪里. 线程“main"
..
我知道 k-means 是什么,我也知道 k-means++ 算法是什么.我相信唯一的变化是找到初始 K 中心的方式. 在 ++ 版本中,我们最初选择一个中心,然后使用概率分布选择剩余的 k-1 个中心. 在 k-means 的 MLLib 算法中,initializationSteps 参数是什么? 解决方案 准确地说,k-means++ 是一种选择初始中心的算法,它并没有描
..
我在 Scala 中使用 Kmeans Spark 函数,我需要将获得的集群中心保存到 CSV 中.这个 val 是类型:Array[DenseVector]. val cluster = KMeans.train(parsedData, numClusters, numIterations)val中心=clusters.clusterCenters 我试图将 centers 转换为 RDD
..
我正在尝试用 Java 解决非负多元线性回归问题.我找到了一个求解器类 org.apache.spark.mllib.optimization.NNLS 用 Scala 编写.但是,我不知道如何使用它. 让我困惑的是,下面这个方法的界面看起来很奇怪.我认为 A 是一个 MxN 矩阵,b 是一个 M 向量,参数 ata 和 atb应该分别是 NxN 矩阵和 N 向量.然而,ata的实际类型是d
..
这是我第一次尝试在 Spark 中运行 KMeans 聚类分析,所以,很抱歉问一个愚蠢的问题. 我有一个包含许多列的 spark 数据框 mydataframe.我只想在两列上运行 kmeans:lat 和 long(纬度和经度),将它们用作简单值.我想仅基于那 2 列提取 7 个集群.我试过了: from numpy import array从数学导入 sqrt从 pyspark.mll
..
以下是示例代码.我正在尝试获取 newfile.txt (包含新闻文章的文件)中所有单词的向量表示.想知道 model.getVectors().keys() 是否输出所有键(文件中的不同单词)或是否将输出限制为特定数量. 虽然我的输入确实有很多,但目前我只得到几个词作为关键.它是如何工作的? doc = sc.textFile('newfile.txt').map(lambda line
..
我有一个名为 matrix 的输入 mllib 块矩阵,例如, 矩阵:org.apache.spark.mllib.linalg.Matrix =0.0 2.0 1.0 2.02.0 0.0 2.0 4.01.0 2.0 0.0 3.02.0 4.0 3.0 0.0 根据我的 Scala 代码,对角线肯定是 zero.我需要 matrix 的对角线为 1.如果我有一个 diagonal mat
..
目前正在使用 spark 2.0.1 和 2.2.1 在我的 spark-shell 中使用自定义转换器. 在编写自定义 ml 转换器时,为了将其添加到管道中,我注意到复制方法的覆盖存在问题. 复制方法在我的例子中被 TrainValidationSplit 的 fit 方法调用. 我得到的错误: java.lang.NoSuchMethodException: Custom.
..
我尝试为 Spark 2.3.0 中的 LDA 分析创建令牌计数向量.我遵循了一些教程,每次他们都使用 CountVectorizer 来轻松地将字符串数组转换为向量. 我在我的 Databricks 笔记本上运行这个简短的例子: import org.apache.spark.ml.feature.CountVectorizerval testW = Seq((8, Array("Zar
..
我在代表窗口序列的列表中有一组大小为 3 的元组.我需要的是使用 pyspask 能够获得(给定元组的前两个部分)第三个. 所以我需要它根据频率创建三个元素的序列. 这就是我正在做的: data = [[['a','b','c'],['b','c','d'],['c','d','e'],['d','e','f'],['e','f','g'],['f','g','h'],['a','b
..
我的程序使用 Spark.ML,我在数据帧上使用逻辑回归.但是我也想使用 LogisticRegressionWithLBFGS,所以我想将我的数据帧转换为 LabeledPoint. 下面的代码给了我一个错误 val model = new LogisticRegressionWithLBFGS().run(dff3.rdd.map(row=>LabeledPoint(row.getAs
..
java.lang.AssertionError:断言失败:此操作仅支持二元逻辑回归 我正在尝试在 mleap 中序列化一个 Spark 管道. 我在我的管道中使用 Tokenizer、HashingTF 和 LogisticRegression. 当我尝试序列化我的管道时,出现上述错误.这是我用来序列化管道的代码 - val pipeline = Pipeline(pipe
..
我的问题是,当我将代码更改为流模式并将数据框放入 foreach 循环时,数据框显示为空表!我不填!我也不能把它放到 assembler.transform() 中.错误是: Error:(38, 40) not enough arguments for method map: (mapFunc: String => U)(implicit evidence$2: scala.reflect.C
..
我正在阅读“Spark The Definitive Guide",我在 MLlib 章节中遇到了一个代码部分,其中包含以下代码: var df = spark.read.json("/data/simple-ml")df.orderBy("value2").show()导入 org.apache.spark.ml.feature.RFormula//无法理解这个公式的解释val 监督 = ne
..
我目前正在使用 scikit-learn 库提供的 SGDClassifier.当我使用 fit 方法时,我可以设置 sample_weight 参数: 应用于单个样本的权重.如果没有提供,统一假设权重.这些权重将乘以class_weight(通过构造函数传递)如果 class_weight 是指定 我想切换到 PySpark 并使用 LogisticRegression 类.无论如何
..
我目前正在使用 scikit-learn 库提供的 SGDClassifier.当我使用 fit 方法时,我可以设置 sample_weight 参数: 应用于单个样本的权重.如果没有提供,统一假设权重.这些权重将乘以class_weight(通过构造函数传递)如果 class_weight 是指定 我想切换到 PySpark 并使用 LogisticRegression 类.无论如何
..
我在代表窗口序列的列表中有一组大小为 3 的元组.我需要的是使用 pyspask 能够获得(给定元组的前两个部分)第三个. 所以我需要它根据频率创建三个元素的序列. 这就是我正在做的: data = [[['a','b','c'],['b','c','d'],['c','d','e'],['d','e','f'],['e','f','g'],['f','g','h'],['a','b
..
我正在尝试运行此处提供的 CountVectorizerDemo 程序: https://github.com/apache/spark/blob/master/examples/src/main/java/org/apache/spark/examples/ml/JavaCountVectorizerExample.java 我收到以下错误,但不知道问题出在哪里. 线程“main"
..