apache-spark-mllib 第4页 - IT屋-程序员软件开发技术分享社区

相当于 ml.DecisionTreeClassificationModel 中的 mllib.DecisionTreeModel.toDebugString()

正如问题所说，org.apache.spark.ml 中是否有任何相当于 Spark org.apache.spark.mllib.tree.model.DecisionTreeClassificationModel.toDebugString() 的东西.分类.决策树分类模型我已经浏览了后者的 API 文档，发现这个方法 rootNode() 返回一个 org.apache.spark. ..

发布时间：2021-11-14 21:12:38 java apache-spark decision-tree apache-spark-mllib Java开发

如何在 Spark 随机森林中训练数据时设置截止

我正在使用 Spark Mlib 训练数据以使用随机森林算法进行分类.MLib 提供了一个 RandomForest 类，该类具有 trainClassifier 方法，可以执行所需的操作. 我可以在训练数据集时设置阈值吗，类似于 R 的 randomForest 包中提供的 cutoff 选项. http://cran.r-project.org/web/包/randomForest ..

发布时间：2021-11-14 21:12:35 apache-spark random-forest apache-spark-mllib 其他开发

如何解决 java.lang.NoSuchMethodError org.apache.spark.ml.util.SchemaUtils$.checkColumnType

我正在尝试运行此处提供的 CountVectorizerDemo 程序: https://github.com/apache/spark/blob/master/examples/src/main/java/org/apache/spark/examples/ml/JavaCountVectorizerExample.java 我收到以下错误，但不知道问题出在哪里. 线程“main" ..

发布时间：2021-11-14 21:12:32 java exception apache-spark apache-spark-mllib Java开发

Spark MLLib 中 Kmeans++ 中的初始化步骤参数究竟是什么?

我知道 k-means 是什么，我也知道 k-means++ 算法是什么.我相信唯一的变化是找到初始 K 中心的方式. 在 ++ 版本中，我们最初选择一个中心，然后使用概率分布选择剩余的 k-1 个中心. 在 k-means 的 MLLib 算法中，initializationSteps 参数是什么? 解决方案准确地说，k-means++ 是一种选择初始中心的算法，它并没有描 ..

发布时间：2021-11-14 21:12:29 apache-spark pyspark apache-spark-sql apache-spark-mllib 其他开发

使用 Scala 将 Array[DenseVector] 转换为 CSV

我在 Scala 中使用 Kmeans Spark 函数，我需要将获得的集群中心保存到 CSV 中.这个 val 是类型:Array[DenseVector]. val cluster = KMeans.train(parsedData, numClusters, numIterations)val中心=clusters.clusterCenters 我试图将 centers 转换为 RDD ..

发布时间：2021-11-14 21:12:26 scala csv cluster-computing k-means apache-spark-mllib 其他开发

如何使用 NNLS 进行非负多元线性回归?

我正在尝试用 Java 解决非负多元线性回归问题.我找到了一个求解器类 org.apache.spark.mllib.optimization.NNLS 用 Scala 编写.但是，我不知道如何使用它. 让我困惑的是，下面这个方法的界面看起来很奇怪.我认为 A 是一个 MxN 矩阵，b 是一个 M 向量，参数 ata 和 atb应该分别是 NxN 矩阵和 N 向量.然而，ata的实际类型是d ..

发布时间：2021-11-14 21:12:23 java apache-spark linear-regression apache-spark-mllib Java开发

在 PySpark 中运行 KMeans 聚类

这是我第一次尝试在 Spark 中运行 KMeans 聚类分析，所以，很抱歉问一个愚蠢的问题. 我有一个包含许多列的 spark 数据框 mydataframe.我只想在两列上运行 kmeans:lat 和 long(纬度和经度)，将它们用作简单值.我想仅基于那 2 列提取 7 个集群.我试过了: from numpy import array从数学导入 sqrt从 pyspark.mll ..

发布时间：2021-11-14 21:12:20 pyspark k-means apache-spark-mllib 其他开发

model.getVectors().keys() 会返回模型中的所有键吗

以下是示例代码.我正在尝试获取 newfile.txt (包含新闻文章的文件)中所有单词的向量表示.想知道 model.getVectors().keys() 是否输出所有键(文件中的不同单词)或是否将输出限制为特定数量. 虽然我的输入确实有很多，但目前我只得到几个词作为关键.它是如何工作的? doc = sc.textFile('newfile.txt').map(lambda line ..

发布时间：2021-11-14 21:12:17 pyspark apache-spark-mllib word2vec 其他开发

在 Scala 中创建具有指定行数和列数的对角矩阵

我有一个名为 matrix 的输入 mllib 块矩阵，例如，矩阵:org.apache.spark.mllib.linalg.Matrix =0.0 2.0 1.0 2.02.0 0.0 2.0 4.01.0 2.0 0.0 3.02.0 4.0 3.0 0.0 根据我的 Scala 代码，对角线肯定是 zero.我需要 matrix 的对角线为 1.如果我有一个 diagonal mat ..

发布时间：2021-11-14 21:12:14 scala apache-spark matrix apache-spark-mllib 其他开发

java.lang.NoSuchMethodException: .(java.lang.String) 复制自定义 Transformer 时

目前正在使用 spark 2.0.1 和 2.2.1 在我的 spark-shell 中使用自定义转换器. 在编写自定义 ml 转换器时，为了将其添加到管道中，我注意到复制方法的覆盖存在问题. 复制方法在我的例子中被 TrainValidationSplit 的 fit 方法调用. 我得到的错误: java.lang.NoSuchMethodException: Custom. ..

发布时间：2021-11-14 21:12:11 scala apache-spark apache-spark-mllib pipeline transformer 其他开发

Spark CountVectorizer 返回 udt 而不是向量

我尝试为 Spark 2.3.0 中的 LDA 分析创建令牌计数向量.我遵循了一些教程，每次他们都使用 CountVectorizer 来轻松地将字符串数组转换为向量. 我在我的 Databricks 笔记本上运行这个简短的例子: import org.apache.spark.ml.feature.CountVectorizerval testW = Seq((8, Array("Zar ..

发布时间：2021-11-14 21:12:08 apache-spark apache-spark-sql apache-spark-mllib 其他开发

PrefixSpan 序列提取误区

我在代表窗口序列的列表中有一组大小为 3 的元组.我需要的是使用 pyspask 能够获得(给定元组的前两个部分)第三个. 所以我需要它根据频率创建三个元素的序列. 这就是我正在做的: data = [[['a','b','c'],['b','c','d'],['c','d','e'],['d','e','f'],['e','f','g'],['f','g','h'],['a','b ..

发布时间：2021-11-14 21:12:05 python apache-spark apache-spark-mllib pattern-mining Python

无法将数据框转换为标记点

我的程序使用 Spark.ML，我在数据帧上使用逻辑回归.但是我也想使用 LogisticRegressionWithLBFGS，所以我想将我的数据帧转换为 LabeledPoint. 下面的代码给了我一个错误 val model = new LogisticRegressionWithLBFGS().run(dff3.rdd.map(row=>LabeledPoint(row.getAs ..

发布时间：2021-11-14 21:12:02 scala apache-spark apache-spark-mllib 其他开发

无法在 mleap 中序列化逻辑回归

java.lang.AssertionError:断言失败:此操作仅支持二元逻辑回归我正在尝试在 mleap 中序列化一个 Spark 管道. 我在我的管道中使用 Tokenizer、HashingTF 和 LogisticRegression. 当我尝试序列化我的管道时，出现上述错误.这是我用来序列化管道的代码 - val pipeline = Pipeline(pipe ..

发布时间：2021-11-14 21:11:59 apache-spark serialization apache-spark-sql apache-spark-mllib mleap 其他开发

为什么 foreachRDD 不使用 StreamingContext.textFileStream 用新内容填充 DataFrame?

我的问题是，当我将代码更改为流模式并将数据框放入 foreach 循环时，数据框显示为空表！我不填！我也不能把它放到 assembler.transform() 中.错误是: Error:(38, 40) not enough arguments for method map: (mapFunc: String => U)(implicit evidence$2: scala.reflect.C ..

发布时间：2021-11-14 21:11:55 scala apache-spark apache-spark-sql spark-streaming apache-spark-mllib 其他开发

Spark R公式解读

我正在阅读“Spark The Definitive Guide"，我在 MLlib 章节中遇到了一个代码部分，其中包含以下代码: var df = spark.read.json("/data/simple-ml")df.orderBy("value2").show()导入 org.apache.spark.ml.feature.RFormula//无法理解这个公式的解释val 监督 = ne ..

发布时间：2021-11-14 21:11:51 apache-spark machine-learning classification apache-spark-mllib AI人工智能

PySpark 中是否有与 scikit-learn 的 sample_weight 等效的参数?

我目前正在使用 scikit-learn 库提供的 SGDClassifier.当我使用 fit 方法时，我可以设置 sample_weight 参数: 应用于单个样本的权重.如果没有提供，统一假设权重.这些权重将乘以class_weight(通过构造函数传递)如果 class_weight 是指定我想切换到 PySpark 并使用 LogisticRegression 类.无论如何 ..

发布时间：2021-11-14 21:11:48 python scikit-learn pyspark apache-spark-mllib apache-spark-ml Python

PySpark 中是否有与 scikit-learn 的 sample_weight 等效的参数?

我目前正在使用 scikit-learn 库提供的 SGDClassifier.当我使用 fit 方法时，我可以设置 sample_weight 参数: 应用于单个样本的权重.如果没有提供，统一假设权重.这些权重将乘以class_weight(通过构造函数传递)如果 class_weight 是指定我想切换到 PySpark 并使用 LogisticRegression 类.无论如何 ..

发布时间：2021-11-14 21:11:45 python scikit-learn pyspark apache-spark-mllib apache-spark-ml Python

PrefixSpan 序列提取误区

我在代表窗口序列的列表中有一组大小为 3 的元组.我需要的是使用 pyspask 能够获得(给定元组的前两个部分)第三个. 所以我需要它根据频率创建三个元素的序列. 这就是我正在做的: data = [[['a','b','c'],['b','c','d'],['c','d','e'],['d','e','f'],['e','f','g'],['f','g','h'],['a','b ..

发布时间：2021-11-14 21:11:42 python apache-spark apache-spark-mllib pattern-mining Python

如何解决 java.lang.NoSuchMethodError org.apache.spark.ml.util.SchemaUtils$.checkColumnType

我正在尝试运行此处提供的 CountVectorizerDemo 程序: https://github.com/apache/spark/blob/master/examples/src/main/java/org/apache/spark/examples/ml/JavaCountVectorizerExample.java 我收到以下错误，但不知道问题出在哪里. 线程“main" ..

发布时间：2021-11-14 21:11:38 java exception apache-spark apache-spark-mllib Java开发

apache-spark-mllib相关内容