apache-spark-mllib 第34页 - IT屋-程序员软件开发技术分享社区

MLlib微风向量/矩阵是私有的org.apache.spark.mllib范围是什么？

我看过的地方，当地MLlib向量/矩阵正在包装微风实现，但转换MLlib微风向量方法/矩阵私有org.apache.spark.mllib范围。建议来解决，这是写你的code在org.apache.spark.mllib.something包。有没有更好的方法来做到这一点？你能举一些相关的例子？感谢和问候，解决方案我做了同样的解决方案，@dlwh建议。这里是code，它做的： ..

发布时间：2016-05-22 15:43:27 apache-spark apache-spark-mllib scala-breeze 其他开发

如何提取决策树火花MLlib规则

我使用星火MLlib 1.4.1创建决策树模型。现在我想提取决策树规则。我怎么能提取规则？解决方案您可以通过调用model.toDebugString（获得完整的模型作为一个字符串），或致电model.save（SC，文件路径），将其保存为JSON。的文档是在这里，其中包含与您可以检查在命令行输出格式的小样本数据的例子。在这里，我格式化脚本，您可以直接过去和运行。从nump ..

发布时间：2016-05-22 15:42:46 apache-spark apache-spark-mllib 其他开发

在星火RandomForestClassifier predict类的概率

我建立使用ml.classification.RandomForestClassifier随机森林模型。我试图从模型中提取predict概率，但我只看到prediction类，而不是概率。根据这一问题链接，该问题得到解决，它会导致这个 github上拉申请和的这个。然而，现在看来，这是在1.5版解决。我使用的是AWS EMR提供星火1.4.1和窗台不知道如何获得predict概率。如果有人知道如何 ..

发布时间：2016-05-22 15:42:42 scala apache-spark apache-spark-mllib 其他开发

如何groupByKey一个RDD，与DenseVector为重点，在星火？

我已经创建了一个RDD每个成员是一个键值对的键是一个 DenseVector 和值是一个 INT 。例如 [（DenseVector（[3,4]），10），（DenseVector（[3,4]），20）] 现在我想通过组关键 K1 ： DenseVector（[3,4]）。我期望的行为为分组键的所有值 K1 这是 10 和 20 。但结果我得到的是 [（DenseVector（[3,4]） ..

发布时间：2016-05-22 15:39:34 python apache-spark pyspark apache-spark-mllib Python

星火随机森林模型的交叉验证

我要评估一个随机森林的一些数据被训练。是否有阿帕奇星火任何实用程序执行相同或做我必须手动进行交叉验证？任何帮助/指导方针将大大AP preciated。解决方案 ML提供 ..

发布时间：2016-05-22 15:37:51 apache-spark random-forest cross-validation apache-spark-ml apache-spark-mllib 其他开发

RDD变换和操作只能由驱动调用

错误： org.apache.spark.SparkException： RDD的转换和操作只能由司机被调用，而不是内的其他变换;例如，rdd1.map（X => rdd2.values.count（）* X）是无效的，因为价值观改造和计数不能在rdd1.map改造内部执行的操作。欲了解更多信息，请参阅SPARK-5063。高清computeRatio（型号：MatrixFactoriz ..

发布时间：2016-05-22 15:36:44 scala mapreduce apache-spark apache-spark-mllib 其他开发

如何保存和加载在Apache的星火MLLib模型

我训练中的Apache星火分类模型（ pyspark 使用）。我存储在模型对象， LogisticRegressionModel 。现在，我想就新的数据predictions。我想存储的模式，并在为了使predictions读回到一个新的程序。任何想法如何存储模式？我在想，也许泡菜，但我是一个新手，Python和星火，所以我想听听市民的想法。更新：我还需要一个决策树分类。读它，我需要进口Dec ..

发布时间：2016-05-22 15:36:41 python apache-spark pyspark apache-spark-mllib Python

星火，数据框：适用于变压器/估计到组

我有一个数据帧，看起来像如下： + ----------- + ----- + ------------ + |用户ID |组|功能| + ----------- + ----- + ------------ + | 12462563356 | 1 | [5.0,43.0] | | 12462563701 | 2 | [1.0,8.0] | | 12462563701 | 1 | [2.0,1 ..

发布时间：2016-05-22 15:35:37 apache-spark spark-dataframe apache-spark-mllib apache-spark-ml 其他开发

创建在Python星火数据框labeledPoints

什么.MAP（）函数在Python做我用从一个火花数据帧创建一组labeledPoints的？什么是符号如果标签/结果不是第一列，但我可以参考它的列名，“状态”？我创建了蟒蛇数据框与此.MAP（）函数：高清parsePoint（线）： listmp =列表（line.split（'\\ t'））数据框= pd.DataFrame（pd.get_dummies（listmp ..

发布时间：2016-05-22 15:34:34 python pandas apache-spark apache-spark-mllib Python

org.apache.spark.ml.classification和org.apache.spark.mllib.classification的区别

我正在写一个应用程序的火花，并希望在MLlib使用的算法。在API文档，我发现两个不同的类为相同的算法。例如，存在org.apache.spark.ml.classification也org.apache.spark.mllib.classification一个LogisticRegressionwithSGD 1逻辑回归我可以找到唯一的区别在于，一个在org.apache.spark.m ..

发布时间：2016-05-22 15:33:47 scala apache-spark apache-spark-mllib 其他开发

创建RDD收集迭代计算的结果

我想创建一个RDD收集迭代计算的结果。我如何使用循环（或任何其他），以替换以下code：进口org.apache.spark.mllib.random.RandomRDDs._VAL N = 10VAL步骤1 = normalRDD（SC，N，种子= 1） VAL步骤2 = normalRDD（SC，N，种子=（step1.max）.toLong） VAL RESULT1 = step1. ..

发布时间：2016-05-22 15:30:38 scala apache-spark akka scalaz apache-spark-mllib 其他开发

运行3000+随机森林模型按组使用星火MLlib斯卡拉API

我想按组来构建随机森林模型（学校ID，超过3千人）使用星火斯卡拉API一个大模型的输入csv文件。各组含有约3000-4000的记录。我有支配的资源是20-30 AWS m3.2xlarge实例。在R，我可以按组构建模型并将其保存到像这个 - 列表库（dplyr）;库（随机森林）; Rf_model＆LT; - 火车％GT;％GROUP_BY（学校ID）％GT;％ ..

发布时间：2016-05-22 15:30:13 r scala apache-spark apache-spark-mllib 其他开发

如何提取从CrossValidatorModel最佳参数

我想找到的参数 ParamGridBuilder ，使最好的模型CrossValidator在星火1.4.x的，在 ..

发布时间：2016-05-22 15:29:09 scala apache-spark pipeline cross-validation apache-spark-mllib 其他开发

如何创建于火花ML分类正确的数据帧

我试图用星火ML API 运行随机森林分类，但我有与创建正确的数据帧输入到管道的问题。下面是样本数据：年龄，hours_per_week，教育，性别，salaryRange 38,40，“HS-毕业生”，“男性”，“A” 28,40，“单身汉”，“女性”，“A” 52,45，“HS-毕业生”，“男性”，“B” 31,50，“主人”，“女性”，“B” 42,40，“单身汉”，“男性”，“B” ..

发布时间：2016-05-22 15:28:17 scala apache-spark apache-spark-sql apache-spark-mllib 其他开发

星火不利用所有核心同时运行LinearRegressionwithSGD

我我的本地机器（16G，8个CPU内核）上运行的火花。我试图在训练300MB大小的数据线性回归模型。我检查了CPU的统计数据，也是程序运行时，它只是执行一个线程。文档说，他们已经实现了SGD的分布式版本。的http://spark.apache.org/docs/latest/mllib-linear-methods.html#implementation-developer 从pysp ..

发布时间：2016-05-22 15:27:56 apache-spark apache-spark-mllib 其他开发

文本分类 - 如何处理

我会尽力做描述一下我的想法。有是存储在MS SQL数据库中的文本内容。内容每天当属流。有些人每天都要经过的内容，如果内容符合一定的标准，将其标记为验证。只有一个类别。这是不是“合法”与否。我要的是创建基于已经验证的内容模型，将其保存并使用此模式为“pre-验证”或标记新传入的内容。也曾经在一段时间更新基于新验证的内容模型。希望我解释清楚自己我想用星火基础上创建的模型流对数据进行分类。和 ..

发布时间：2016-05-22 15:27:38 apache-spark machine-learning apache-spark-mllib apache-spark-ml AI人工智能

什么哈希函数没有火花HashingTF使用？如何复制呢？

火花MLLIb具有计算基于每个术语的一个散列值文件术语频率的HashingTF（）函数。 1），它使用什么功能做哈希？ 2）我如何能实现从Python的相同散列值？ 3）如果我要计算一个给定的单输入的散列输出，无需计算词频，我该怎么做呢？解决方案如果您存在疑问是它通常好检查 ..

发布时间：2016-05-22 15:27:16 python hash apache-spark pyspark apache-spark-mllib Python

星火MLIB FPGrowth作业失败，内存错误

我有一个相当简单的用例，但可能非常大的结果集。我的code做以下（在pyspark壳）：从pyspark.mllib.fpm进口FPGrowth 数据= sc.textFile（“/用户/我/ associationtestproject /数据/ sourcedata.txt”）交易= Data.Map中（拉姆达行：line.strip（）分（''））。模型= FPGrowth.trai ..

发布时间：2016-05-22 15:27:00 apache-spark rdd apache-spark-mllib 其他开发

阿帕奇星火MLlib模型文件格式

阿帕奇星火MLlib算法（例如，决策树）保存在一个位置模式（例如， myModelPath ）其中它创建两个目录，即 myModelPath /数据和 myModelPath /元。有在这些路径的多个文件，而这些都是不文本文件。有格式 *。实木复合地板的一些文件。我有几个问题：什么是这些文件的格式？哪个文件/文件包含实际的模型？我可以在模型保存到其他地方，例如在DB？解 ..

发布时间：2016-05-22 15:26:15 apache-spark apache-spark-mllib 其他开发

星火ML - 保存OneVsRestModel

我在我的重构code采取优势的中间DataFrames，估计和管道。我本来使用 MLlib多类LogisticRegressionWithLBFGS 的上 RDD [LabeledPoint] 。我很享受学习和使用新的API，但我不知道如何拯救我的新模式，它适用于新的数据。目前，在ML实施逻辑回归只支持二元分类。我，而不是使用的 OneVsRest 像这样： VAL LR =新逻辑回归（） ..

发布时间：2016-05-22 15:23:03 scala apache-spark apache-spark-mllib apache-spark-ml 其他开发

apache-spark-mllib相关内容