apache-spark-ml相关内容

LDA模型预测不一致

我训练了一个LDA模型并将其加载到环境中以转换新数据: from pyspark.ml.clustering import LocalLDAModel lda = LocalLDAModel.load(path) df = lda.transform(text) 该模型将添加一个名为 topicDistribution 的新列.我认为,对于相同的输入,此分布应该相同,否则此模型不一致. ..

PySpark中的KMeans聚类

我有一个包含许多列的spark数据框"mydataframe".我试图仅在两列上运行kmeans:纬度和经度(纬度和经度),将它们用作简单值).我想仅基于这两列提取7个聚类,然后将聚类分配附加到我的原始数据框中.我尝试过: from numpy import array from math import sqrt from pyspark.mllib.clustering import KM ..

带有DataFrame API的Apache Spark MLlib在createDataFrame()或read()时会产生java.net.URISyntaxException .csv(...)

在一个独立的应用程序(运行在java8,Windows 10上,以spark-xxx_2.11:2.0.0作为jar依赖项)下一个代码会出错: / * this:* / Dataset logData = spark_session.createDataFrame(Arrays.asList( new LabeledPoint(1.0,Vectors.dense(4.9, ..

如何使二元现象的分类在星火ML没有StringIndexer

我尝试使用星火ML DecisionTreeClassifier在没有StringIndexer管道,因为我的功能已经被索引为(0.0 1.0)。 DecisionTreeClassifier作为标签,需要双精度值,所以这个code应该工作: 高清trainDecisionTreeModel(培训:RDD [LabeledPoint],SQLC:SQLContext):单位= { 进口sql ..

标记列,在范畴星火

我目前使用StringIndexer到很多列转换成在RandomForestModel分类独特的整数。我还使用了ML过程中的管道。 有些查询是 如何在RandomForestModel知道哪些列分类。 StringIndexer转换非 - 数值对数值,但是它添加somesort的一些元数据以表明它是一个类别列?在mllib.tree.RF有参数调用categoricalInfo这表明它们是 ..

星火,ML,StringIndexer:处理看不见的标签

我的目标是建立一个multicalss分类。 我建立用于特征提取一个管道,它包括作为第一工序的StringIndexer变压器每个类名称映射到一个标签,该标签将在分类器训练步骤中使用。 管道安装训练集。 该测试集已经被拟合管道以提取相同的特征矢量被处理。 知道了我的测试设置文件具有训练集的相同的结构。这里可能的情况是在测试将面临一个看不见的类名,在这种情况下StringIndexer将无法 ..
发布时间:2016-05-22 16:31:52 其他开发

星火斯卡拉错误,同时节省数据框蜂巢

我已经通过合并多个阵列诬陷数据帧。我想这个保存到一个蜂巢表,我收到ArrayIndexOutofBound例外。以下是code和我得到了错误。我试着用添加案例类的内外主高清,但仍然得到同样的错误。 进口org.apache.spark {SparkConf,SparkContext} 进口org.apache.spark.sql {行,SQLContext,数据框} 进口org.apache.s ..

节能与DecisionTreeModel星火ML管道

上下文: 我有一个星火ML管道包含VectorAssembler,StringIndexer和DecisionTreeClassifier。使用这条管道,我能够成功地适应模型和转换我的数据帧。我想用来存储这种模式以供日后使用,但我不断收到以下错误: 管道写入将在这条管道,因为它包含没有实现可写一个阶段失败。 不可写的阶段:dtc_9c04161ed2d1类型的类org.apache.spark ..
发布时间:2016-05-22 16:19:28 其他开发

从星火数据框中删除嵌套列

我有一个数据帧与模式 根 | - 标签:字符串(可为空=真) | - 特点:结构(可为空=真) | | - FEAT1:字符串(可为空=真) | | - FEAT2:字符串(可为空=真) | | - feat3:字符串(可为空=真) 虽然,我能够用过滤数据帧 VAL数据= RAWDATA .filter((RAWDATA(“features.feat1”) ..
发布时间:2016-05-22 16:13:19 其他开发

星火ML管道API保存不工作

在1.6版本管道API得到了一套新的功能,以保存和加载流水线阶段。我试图舞台保存到硬盘后,我训练的分类器和后再次将其装入重用并保存计算重新建模的工作。 由于某些原因,当我保存模型,该目录仅包含元数据目录。当我尝试再次加载它,我得到了以下异常: 异常线程“main”java.lang.UnsupportedOperationException: 在空集 org.apache.spark. ..
发布时间:2016-05-22 16:08:48 Java开发

pyspark毫升推荐 - 所有recomendation

海兰, 我在星火新我使用ML推荐尝试。 我的code DF = sqlContext.createDataFrame( [(0,0,4.0),(0,1,2.0),(1,1,3.0),(1,2,4.0),(2,1,1.0),(2,2,5.0)], [“用户”,“项”,“评级”])ALS = ALS(等级= 10,MAXITER = 5)模型= als.fit(DF)model.userFac ..
发布时间:2016-05-22 15:39:09 其他开发