apache-spark-ml 第15页 - IT屋-程序员软件开发技术分享社区

如何将LIBSVM模型(使用LIBSVM保存)读入PySpark?

我有一个LIBSVM缩放模型(由svm-scale生成)，我想移植到PySpark.我已经天真地尝试了以下方法: scaler_path = "path to model" a = MinMaxScaler().load(scaler_path) 但是我抛出了一个错误，需要一个元数据目录: Py4JJavaErrorTraceback (most recent call last) ..

发布时间：2020-04-30 10:44:07 apache-spark pyspark libsvm apache-spark-ml 其他开发

LDA模型预测不一致

我训练了一个LDA模型并将其加载到环境中以转换新数据: from pyspark.ml.clustering import LocalLDAModel lda = LocalLDAModel.load(path) df = lda.transform(text) 该模型将添加一个名为 topicDistribution 的新列.我认为，对于相同的输入，此分布应该相同，否则此模型不一致. ..

发布时间：2020-04-30 08:39:41 apache-spark pyspark apache-spark-mllib lda apache-spark-ml 其他开发

Spark ML Kmeans提供:org.apache.spark.SparkException:无法执行用户定义的函数($ anonfun $ 2 :(向量)=> int)

我尝试加载KmeansModel，然后从中取出标签: 这是我编写的代码: val kMeansModel = KMeansModel.load(trainedMlModel.mlModelFilePath) val arrayOfElements = measurePoint.measurements.map(a => a._2).toSeq ..

发布时间：2020-04-26 10:24:50 apache-spark apache-spark-sql k-means apache-spark-mllib apache-spark-ml 其他开发

PySpark ML:获取KMeans集群统计信息

我建立了一个KMeansModel.我的结果存储在名为 transformed. (a)如何解释transformed的内容? (b)如何从transformed创建一个或多个Pandas DataFrame，以显示14个群集中每个13个功能部件的摘要统计信息? from pyspark.ml.clustering import KMeans # Trains a k-means ..

发布时间：2020-04-26 10:23:49 machine-learning pyspark cluster-analysis k-means apache-spark-ml AI人工智能

我有一个包含许多列的spark数据框"mydataframe".我试图仅在两列上运行kmeans:纬度和经度(纬度和经度)，将它们用作简单值).我想仅基于这两列提取7个聚类，然后将聚类分配附加到我的原始数据框中.我尝试过: from numpy import array from math import sqrt from pyspark.mllib.clustering import KM ..

发布时间：2020-04-26 10:19:23 machine-learning pyspark k-means apache-spark-mllib apache-spark-ml AI人工智能

带有DataFrame API的Apache Spark MLlib在createDataFrame（）或read（）时会产生java.net.URISyntaxException .csv（...）

在一个独立的应用程序（运行在java8，Windows 10上，以spark-xxx_2.11：2.0.0作为jar依赖项）下一个代码会出错： / * this：* / Dataset logData = spark_session.createDataFrame（Arrays.asList（ new LabeledPoint（1.0，Vectors.dense（4.9, ..

发布时间：2019-01-09 21:30:02 java apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml Java开发

如何使二元现象的分类在星火ML没有StringIndexer

我尝试使用星火ML DecisionTreeClassifier在没有StringIndexer管道，因为我的功能已经被索引为（0.0 1.0）。 DecisionTreeClassifier作为标签，需要双精度值，所以这个code应该工作：高清trainDecisionTreeModel（培训：RDD [LabeledPoint]，SQLC：SQLContext）：单位= { 进口sql ..

发布时间：2016-05-22 16:41:16 scala apache-spark classification apache-spark-sql apache-spark-ml 其他开发

标记列，在范畴星火

我目前使用StringIndexer到很多列转换成在RandomForestModel分类独特的整数。我还使用了ML过程中的管道。有些查询是如何在RandomForestModel知道哪些列分类。 StringIndexer转换非 - 数值对数值，但是它添加somesort的一些元数据以表明它是一个类别列？在mllib.tree.RF有参数调用categoricalInfo这表明它们是 ..

发布时间：2016-05-22 16:32:17 scala apache-spark random-forest apache-spark-mllib apache-spark-ml 其他开发

星火，ML，StringIndexer：处理看不见的标签

我的目标是建立一个multicalss分类。我建立用于特征提取一个管道，它包括作为第一工序的StringIndexer变压器每个类名称映射到一个标签，该标签将在分类器训练步骤中使用。管道安装训练集。该测试集已经被拟合管道以提取相同的特征矢量被处理。知道了我的测试设置文件具有训练集的相同的结构。这里可能的情况是在测试将面临一个看不见的类名，在这种情况下StringIndexer将无法 ..

发布时间：2016-05-22 16:31:52 apache-spark apache-spark-ml 其他开发

星火斯卡拉错误，同时节省数据框蜂巢

我已经通过合并多个阵列诬陷数据帧。我想这个保存到一个蜂巢表，我收到ArrayIndexOutofBound例外。以下是code和我得到了错误。我试着用添加案例类的内外主高清，但仍然得到同样的错误。进口org.apache.spark {SparkConf，SparkContext} 进口org.apache.spark.sql {行，SQLContext，数据框} 进口org.apache.s ..

发布时间：2016-05-22 16:29:50 scala apache-spark apache-spark-sql spark-dataframe apache-spark-ml 其他开发

如何还原一个自定义估计在PySpark mllib

我试图建立pySpark mllib一个简单的自定义估算。我有 ..

发布时间：2016-05-22 16:29:47 python apache-spark scikit-learn pyspark apache-spark-ml Python

节能与DecisionTreeModel星火ML管道

上下文：我有一个星火ML管道包含VectorAssembler，StringIndexer和DecisionTreeClassifier。使用这条管道，我能够成功地适应模型和转换我的数据帧。我想用来存储这种模式以供日后使用，但我不断收到以下错误：管道写入将在这条管道，因为它包含没有实现可写一个阶段失败。不可写的阶段：dtc_9c04161ed2d1类型的类org.apache.spark ..

发布时间：2016-05-22 16:19:28 scala apache-spark apache-spark-ml 其他开发

为什么spark.ml没有实现任何的spark.mllib算法？

继星火MLlib指南，我们可以阅读星火有两个学习机库： spark.mllib ，建于RDDS之上。 spark.ml ，建在Dataframes之上。据 ..

发布时间：2016-05-22 16:14:47 machine-learning apache-spark pyspark apache-spark-mllib apache-spark-ml AI人工智能

从星火数据框中删除嵌套列

发布时间：2016-05-22 16:13:19 scala apache-spark apache-spark-sql apache-spark-ml 其他开发

星火ML管道API保存不工作

在1.6版本管道API得到了一套新的功能，以保存和加载流水线阶段。我试图舞台保存到硬盘后，我训练的分类器和后再次将其装入重用并保存计算重新建模的工作。由于某些原因，当我保存模型，该目录仅包含元数据目录。当我尝试再次加载它，我得到了以下异常：异常线程“main”java.lang.UnsupportedOperationException：在空集 org.apache.spark. ..

发布时间：2016-05-22 16:08:48 java apache-spark apache-spark-ml Java开发

如何访问个别树木由RandomForestClassifier（spark.ml版本）创建的模型？

如何访问个别树木火花ML的 ..

发布时间：2016-05-22 16:03:19 scala apache-spark apache-spark-ml 其他开发

无法从火花ML上一个简单的例子运行RandomForestClassifier

我试图运行实验 RandomForestClassifier 从 spark.ml 包（1.5.2版）。我使用的数据集是从的逻辑回归例子=“nofollow的”>星火ML指南。下面是code：进口org.apache.spark.ml.classification.LogisticRegression 进口org.apache.spark.ml.param.ParamMap 进口org.a ..

发布时间：2016-05-22 15:56:30 scala apache-spark spark-dataframe apache-spark-ml 其他开发

我如何的火花数据帧转换为RDD并获得词袋

发布时间：2016-05-22 15:46:13 apache-spark apache-spark-sql apache-spark-ml 其他开发

pyspark毫升推荐 - 所有recomendation

海兰，我在星火新我使用ML推荐尝试。我的code DF = sqlContext.createDataFrame（ [（0，0，4.0），（0，1，2.0），（1，1，3.0），（1，2，4.0），（2，1，1.0），（2，2，5.0）]， [“用户”，“项”，“评级”]）ALS = ALS（等级= 10，MAXITER = 5）模型= als.fit（DF）model.userFac ..

发布时间：2016-05-22 15:39:09 apache-spark pyspark apache-spark-ml 其他开发

星火随机森林模型的交叉验证

我要评估一个随机森林的一些数据被训练。是否有阿帕奇星火任何实用程序执行相同或做我必须手动进行交叉验证？任何帮助/指导方针将大大AP preciated。解决方案 ML提供 ..

发布时间：2016-05-22 15:37:51 apache-spark random-forest cross-validation apache-spark-ml apache-spark-mllib 其他开发

apache-spark-ml相关内容