apache-spark-ml相关内容
我有一个LIBSVM缩放模型(由svm-scale生成),我想移植到PySpark.我已经天真地尝试了以下方法: scaler_path = "path to model" a = MinMaxScaler().load(scaler_path) 但是我抛出了一个错误,需要一个元数据目录: Py4JJavaErrorTraceback (most recent call last)
..
我训练了一个LDA模型并将其加载到环境中以转换新数据: from pyspark.ml.clustering import LocalLDAModel lda = LocalLDAModel.load(path) df = lda.transform(text) 该模型将添加一个名为 topicDistribution 的新列.我认为,对于相同的输入,此分布应该相同,否则此模型不一致.
..
我尝试加载KmeansModel,然后从中取出标签: 这是我编写的代码: val kMeansModel = KMeansModel.load(trainedMlModel.mlModelFilePath) val arrayOfElements = measurePoint.measurements.map(a => a._2).toSeq
..
我建立了一个KMeansModel.我的结果存储在名为 transformed. (a)如何解释transformed的内容? (b)如何从transformed创建一个或多个Pandas DataFrame,以显示14个群集中每个13个功能部件的摘要统计信息? from pyspark.ml.clustering import KMeans # Trains a k-means
..
我有一个包含许多列的spark数据框"mydataframe".我试图仅在两列上运行kmeans:纬度和经度(纬度和经度),将它们用作简单值).我想仅基于这两列提取7个聚类,然后将聚类分配附加到我的原始数据框中.我尝试过: from numpy import array from math import sqrt from pyspark.mllib.clustering import KM
..
在一个独立的应用程序(运行在java8,Windows 10上,以spark-xxx_2.11:2.0.0作为jar依赖项)下一个代码会出错: / * this:* / Dataset logData = spark_session.createDataFrame(Arrays.asList( new LabeledPoint(1.0,Vectors.dense(4.9,
..
我尝试使用星火ML DecisionTreeClassifier在没有StringIndexer管道,因为我的功能已经被索引为(0.0 1.0)。 DecisionTreeClassifier作为标签,需要双精度值,所以这个code应该工作: 高清trainDecisionTreeModel(培训:RDD [LabeledPoint],SQLC:SQLContext):单位= { 进口sql
..
我目前使用StringIndexer到很多列转换成在RandomForestModel分类独特的整数。我还使用了ML过程中的管道。 有些查询是 如何在RandomForestModel知道哪些列分类。 StringIndexer转换非 - 数值对数值,但是它添加somesort的一些元数据以表明它是一个类别列?在mllib.tree.RF有参数调用categoricalInfo这表明它们是
..
我的目标是建立一个multicalss分类。 我建立用于特征提取一个管道,它包括作为第一工序的StringIndexer变压器每个类名称映射到一个标签,该标签将在分类器训练步骤中使用。 管道安装训练集。 该测试集已经被拟合管道以提取相同的特征矢量被处理。 知道了我的测试设置文件具有训练集的相同的结构。这里可能的情况是在测试将面临一个看不见的类名,在这种情况下StringIndexer将无法
..
我已经通过合并多个阵列诬陷数据帧。我想这个保存到一个蜂巢表,我收到ArrayIndexOutofBound例外。以下是code和我得到了错误。我试着用添加案例类的内外主高清,但仍然得到同样的错误。 进口org.apache.spark {SparkConf,SparkContext} 进口org.apache.spark.sql {行,SQLContext,数据框} 进口org.apache.s
..
我试图建立pySpark mllib一个简单的自定义估算。我有
..
上下文: 我有一个星火ML管道包含VectorAssembler,StringIndexer和DecisionTreeClassifier。使用这条管道,我能够成功地适应模型和转换我的数据帧。我想用来存储这种模式以供日后使用,但我不断收到以下错误: 管道写入将在这条管道,因为它包含没有实现可写一个阶段失败。 不可写的阶段:dtc_9c04161ed2d1类型的类org.apache.spark
..
继星火MLlib指南,我们可以阅读星火有两个学习机库: spark.mllib ,建于RDDS之上。 spark.ml ,建在Dataframes之上。 据
..
我有一个数据帧与模式 根 | - 标签:字符串(可为空=真) | - 特点:结构(可为空=真) | | - FEAT1:字符串(可为空=真) | | - FEAT2:字符串(可为空=真) | | - feat3:字符串(可为空=真) 虽然,我能够用过滤数据帧 VAL数据= RAWDATA .filter((RAWDATA(“features.feat1”)
..
在1.6版本管道API得到了一套新的功能,以保存和加载流水线阶段。我试图舞台保存到硬盘后,我训练的分类器和后再次将其装入重用并保存计算重新建模的工作。 由于某些原因,当我保存模型,该目录仅包含元数据目录。当我尝试再次加载它,我得到了以下异常: 异常线程“main”java.lang.UnsupportedOperationException: 在空集 org.apache.spark.
..
如何访问个别树木火花ML的
..
我试图运行实验 RandomForestClassifier 从 spark.ml 包(1.5.2版)。我使用的数据集是从的逻辑回归例子=“nofollow的”>星火ML指南。 下面是code: 进口org.apache.spark.ml.classification.LogisticRegression 进口org.apache.spark.ml.param.ParamMap 进口org.a
..
我有一个数据帧称为文章 + -------------------- + | processed_title | + -------------------- + | [新,relictual,... | | [一次,在一个时间.. | + -------------------- + 我要压平把它作为文字的包。 我怎么能做到这一点使用的现状。我曾尝试code以下,这似乎给我一个类型不匹配
..
海兰, 我在星火新我使用ML推荐尝试。 我的code DF = sqlContext.createDataFrame( [(0,0,4.0),(0,1,2.0),(1,1,3.0),(1,2,4.0),(2,1,1.0),(2,2,5.0)], [“用户”,“项”,“评级”])ALS = ALS(等级= 10,MAXITER = 5)模型= als.fit(DF)model.userFac
..
我要评估一个随机森林的一些数据被训练。是否有阿帕奇星火任何实用程序执行相同或做我必须手动进行交叉验证?任何帮助/指导方针将大大AP preciated。 解决方案 ML提供
..