apache-spark-mllib相关内容

MLlib微风向量/矩阵是私有的org.apache.spark.mllib范围是什么?

我看过的地方,当地MLlib向量/矩阵正在包装微风实现,但转换MLlib微风向量方法/矩阵私有org.apache.spark.mllib范围。建议来解决,这是写你的code在org.apache.spark.mllib.something包。 有没有更好的方法来做到这一点?你能举一些相关的例子? 感谢和问候, 解决方案 我做了同样的解决方案,@dlwh建议。这里是code,它做的: ..
发布时间:2016-05-22 15:43:27 其他开发

如何提取决策树火花MLlib规则

我使用星火MLlib 1.4.1创建决策树模型。现在我想提取决策树规则。 我怎么能提取规则? 解决方案 您可以通过调用model.toDebugString(获得完整的模型作为一个字符串),或致电model.save(SC,文件路径),将其保存为JSON。 的文档是在这里,其中包含与您可以检查在命令行输出格式的小样本数据的例子。在这里,我格式化脚本,您可以直接过去和运行。 从nump ..
发布时间:2016-05-22 15:42:46 其他开发

在星火RandomForestClassifier predict类的概率

我建立使用ml.classification.RandomForestClassifier随机森林模型。我试图从模型中提取predict概率,但我只看到prediction类,而不是概率。根据这一问题链接,该问题得到解决,它会导致这个 github上拉申请和的这个。然而,现在看来,这是在1.5版解决。我使用的是AWS EMR提供星火1.4.1和窗台不知道如何获得predict概率。如果有人知道如何 ..
发布时间:2016-05-22 15:42:42 其他开发

如何groupByKey一个RDD,与DenseVector为重点,在星火?

我已经创建了一个RDD每个成员是一个键值对的键是一个 DenseVector 和值是一个 INT 。例如 [(DenseVector([3,4]),10),(DenseVector([3,4]),20)] 现在我想通过组关键 K1 : DenseVector([3,4])。我期望的行为为分组键的所有值 K1 这是 10 和 20 。但结果我得到的是 [(DenseVector([3,4]) ..
发布时间:2016-05-22 15:39:34 Python

RDD变换和操作只能由驱动调用

错误: org.apache.spark.SparkException: RDD的转换和操作只能由司机被调用,而不是内的其他变换;例如,rdd1.map(X => rdd2.values​​.count()* X)是无效的,因为价值观改造和计数不能在rdd1.map改造内部执行的操作。欲了解更多信息,请参阅SPARK-5063。 高清computeRatio(型号:MatrixFactoriz ..
发布时间:2016-05-22 15:36:44 其他开发

如何保存和加载在Apache的星火MLLib模型

我训练中的Apache星火分类模型( pyspark 使用)。我存储在模型对象, LogisticRegressionModel 。现在,我想就新的数据predictions。我想存储的模式,并在为了使predictions读回到一个新的程序。任何想法如何存储模式?我在想,也许泡菜,但我是一个新手,Python和星火,所以我想听听市民的想法。 更新:我还需要一个决策树分类。读它,我需要进口Dec ..
发布时间:2016-05-22 15:36:41 Python

创建在Python星火数据框labeledPoints

什么.MAP()函数在Python做我用从一个火花数据帧创建一组labeledPoints的?什么是符号如果标签/结果不是第一列,但我可以参考它的列名,“状态”? 我创建了蟒蛇数据框与此.MAP()函数: 高清parsePoint(线): listmp =列表(line.split('\\ t')) 数据框= pd.DataFrame(pd.get_dummies(listmp ..
发布时间:2016-05-22 15:34:34 Python

org.apache.spark.ml.classification和org.apache.spark.mllib.classification的区别

我正在写一个应用程序的火花,并希望在MLlib使用的算法。在API文档,我发现两个不同的类为相同的算法。 例如,存在org.apache.spark.ml.classification也org.apache.spark.mllib.classification一个LogisticRegressionwithSGD 1逻辑回归 我可以找到唯一的区别在于,一个在org.apache.spark.m ..
发布时间:2016-05-22 15:33:47 其他开发

运行3000+随机森林模型按组使用星火MLlib斯卡拉API

我想按组来构建随机森林模型(学校ID,超过3千人)使用星火斯卡拉API一个大模型的输入csv文件。各组含有约3000-4000的记录。我有支配的资源是20-30 AWS m3.2xlarge实例。 在R,我可以按组构建模型并将其保存到像这个 - 列表 库(dplyr);库(随机森林); Rf_model< - 火车%GT;%GROUP_BY(学校ID)%GT;% ..
发布时间:2016-05-22 15:30:13 其他开发

如何创建于火花ML分类正确的数据帧

我试图用星火ML API 运行随机森林分类,但我有与创建正确的数据帧输入到管道的问题。 下面是样本数据: 年龄,hours_per_week,教育,性别,salaryRange 38,40,“HS-毕业生”,“男性”,“A” 28,40,“单身汉”,“女性”,“A” 52,45,“HS-毕业生”,“男性”,“B” 31,50,“主人”,“女性”,“B” 42,40,“单身汉”,“男性”,“B” ..

星火不利用所有核心同时运行LinearRegressionwithSGD

我我的本地机器(16G,8个CPU内核)上运行的火花。我试图在训练300MB大小的数据线性回归模型。我检查了CPU的统计数据,也是程序运行时,它只是执行一个线程。 文档说,他们已经实现了SGD的分布式版本。 的http://spark.apache.org/docs/latest/mllib-linear-methods.html#implementation-developer 从pysp ..
发布时间:2016-05-22 15:27:56 其他开发

文本分类 - 如何处理

我会尽力做描述一下我的想法。 有是存储在MS SQL数据库中的文本内容。内容每天当属流。有些人每天都要经过的内容,如果内容符合一定的标准,将其标记为验证。只有一个类别。这是不是“合法”与否。 我要的是创建基于已经验证的内容模型,将其保存并使用此模式为“pre-验证”或标记新传入的内容。也曾经在一段时间更新基于新验证的内容模型。希望我解释清楚自己 我想用星火基础上创建的模型流对数据进行分类。和 ..

什么哈希函数没有火花HashingTF使用?如何复制呢?

火花MLLIb具有计算基于每个术语的一个散列值文件术语频率的HashingTF()函数。 1),它使用什么功能做哈希? 2)我如何能实现从Python的相同散列值? 3)如果我要计算一个给定的单输入的散列输出,无需计算词频,我该怎么做呢? 解决方案 如果您存在疑问是它通常好检查 ..
发布时间:2016-05-22 15:27:16 Python

星火MLIB FPGrowth作业失败,内存错误

我有一个相当简单的用例,但可能非常大的结果集。我的code做以下(在pyspark壳): 从pyspark.mllib.fpm进口FPGrowth 数据= sc.textFile(“/用户/我/ associationtestproject /数据/ sourcedata.txt”) 交易= Data.Map中(拉姆达行:line.strip()分(''))。 模型= FPGrowth.trai ..
发布时间:2016-05-22 15:27:00 其他开发

阿帕奇星火MLlib模型文件格式

阿帕奇星火MLlib算法(例如,决策树)保存在一个位置模式(例如, myModelPath )其中它创建两个目录,即 myModelPath /数据和 myModelPath /元。有在这些路径的多个文件,而这些都是不文本文件。有格式 *。实木复合地板的一些文件。 我有几个问题: 什么是这些文件的格式? 哪个文件/文件包含实际的模型? 我可以在模型保存到其他地方,例如在DB? 解 ..
发布时间:2016-05-22 15:26:15 其他开发

星火ML - 保存OneVsRestModel

我在我的重构code采取优势的中间DataFrames,估计和管道。我本来使用 MLlib多类LogisticRegressionWithLBFGS 的上 RDD [LabeledPoint] 。我很享受学习和使用新的API,但我不知道如何拯救我的新模式,它适用于新的数据。 目前,在ML实施逻辑回归只支持二元分类。我,而不是使用的 OneVsRest 像这样: VAL LR =新逻辑回归() ..