apache-spark-mllib相关内容
使用ml、Spark 2.0(Python)和一个120万行的数据集,我试图创建一个使用Random Forest Classifier预测购买趋势的模型。但是,当将转换应用于拆分的test数据集时,预测始终为0。 数据集如下所示: [Row(tier_buyer=u'0', N1=u'1', N2=u'0.72', N3=u'35.0', N4=u'65.81', N5=u'30.6
..
我正在尝试提取我使用 PySpark 训练的随机森林对象的特征重要性.但是,我在文档的任何地方都没有看到这样做的示例,也不是 RandomForestModel 的方法. 如何从 PySpark 中的 RandomForestModel 回归器或分类器中提取特征重要性? 这是文档中提供的示例代码,让我们开始;但是,其中没有提及特征重要性. from pyspark.mllib.tre
..
我使用 Spark 构建了一个 Word2Vec 模型并将其保存为模型.现在,我想在另一个代码中使用它作为离线模型.我已经加载了模型并用它来呈现一个词的向量(例如你好),它运行良好.但是,我需要在 RDD 中使用 map 调用很多词. 当我在 map 函数中调用 model.transform() 时,它抛出这个错误: “看来您正试图从广播中引用 SparkContext"例外:您似乎
..
我正在评估用于基于 ML 的生产应用程序的工具,我们的选择之一是 Spark MLlib,但我对如何在训练后提供模型有一些疑问? 例如,在 Azure ML 中,一旦经过训练,模型就会作为 Web 服务公开,可以从任何应用程序中使用,这与 Amazon ML 的情况类似. 您如何在 Apache Spark 中提供/部署 ML 模型? 解决方案 一方面,使用 Spark 构建的
..
我想在 zeppelin 笔记本中漂亮地打印相关结果: val Row(coeff: Matrix) = Correlation.corr(data, "features").head 实现此目的的方法之一是将结果转换为 DataFrame,每个值位于单独的列中并调用 z.show(). 但是,查看 Matrix api 我看不出有什么办法可以做到这一点. 是否有另一种直接的方法来
..
我知道 k-means 是什么,我也知道 k-means++ 算法是什么.我相信唯一的变化是找到初始 K 中心的方式. 在 ++ 版本中,我们最初选择一个中心,然后使用概率分布选择剩余的 k-1 个中心. 在 k-means 的 MLLib 算法中,initializationSteps 参数是什么? 解决方案 准确地说,k-means++ 是一种选择初始中心的算法,它并没有描
..
我尝试加载 KmeansModel,然后从中取出标签: 这是我写的代码: val kMeansModel = KMeansModel.load(trainedMlModel.mlModelFilePath)val arrayOfElements = measurePoint.measurements.map(a => a._2).toSeqprintln(s"ArrayOfELement
..
我想使用 VectorAssembler 将多列转换为一列,但默认情况下数据是压缩的,没有其他选项. val arr2= Array((1,2,0,0,0),(1,2,3,0,0),(1,2,4,5,0),(1,2,2,5,6))val df=sc.parallelize(arr2).toDF("a","b","c","e","f")val colNames=Array("a","b","c",
..
对于数据帧中的每个特征向量,我需要 k 个最近的邻居.我正在使用来自 pyspark 的 BucketedRandomProjectionLSHModel. 创建模型的代码 brp = BucketedRandomProjectionLSH(inputCol="features", outputCol="hashes",seed=12345, bucketLength=n)模型 = brp
..
对于数据帧中的每个特征向量,我需要 k 个最近的邻居.我正在使用来自 pyspark 的 BucketedRandomProjectionLSHModel. 创建模型的代码 brp = BucketedRandomProjectionLSH(inputCol="features", outputCol="hashes",seed=12345, bucketLength=n)模型 = brp
..
我正在努力理解 RDD、DataSet 和 DataFrame 之间的转换是如何工作的.我对 Spark 很陌生,每次我需要从数据模型传递到另一个数据模型(尤其是从 RDD 到数据集和数据帧)时,我都会卡住.谁能给我解释一下正确的做法? 举个例子,现在我有一个 RDD[org.apache.spark.ml.linalg.Vector] 并且我需要将它传递给我的机器学习算法,例如一个 KMe
..
我是 Spark 和 Spark ML 的新手.我使用函数 KMeansDataGenerator.generateKMeansRDD 生成了一些数据,但是在格式化这些数据时我失败了,以便它可以被 ML 算法使用(这里是 K-Means). 错误是 线程“main"中的异常 java.lang.IllegalArgumentException: 不支持数据类型 ArrayType(Do
..
在独立应用程序中(在 java8、Windows 10 上运行,使用 spark-xxx_2.11:2.0.0 作为 jar 依赖项)下一个代码给出错误: /* 这个:*/数据集logData = spark_session.createDataFrame(Arrays.asList(new LabeledPoint(1.0, Vectors.dense(4.9,3,1.4,0.2)),new
..
我有一个列表中的数据,我想将其转换为一个包含“."的列名的 spark 数据框 我编写了以下代码,运行时没有任何错误. input_data = [('retail', '2017-01-03T13:21:00', 134),('零售', '2017-01-03T13:21:00', 100)]rdd_schema = StructType([StructField('business',
..
我正在尝试使用 spark 中的 columnSimilarities() 构建基于项目的协同过滤模型.使用 columnsSimilarities() 后,我想将原始列名分配回 Spark scala 中的结果. 在数据框上计算 columnSimilarities() 的可运行代码. 数据 //rddval rowsRdd: RDD[Row] = sc.parallelize(序
..
我想从数据框中获取包含至少一个空值的列的名称. 考虑下面的数据框: val dataset = sparkSession.createDataFrame(Seq((7, null, 18, 1.0),(8, "CA", null, 0.0),(9, "新西兰", 15, 0.0))).toDF("id", "country", "hour", "clicked") 我想获取列名称“国家/
..
我正在使用 apache Spark ML lib 来处理使用一种热编码的分类特征.编写以下代码后,我得到一个向量 c_idx_vec 作为一个热编码的输出.我确实了解如何解释这个输出向量,但我无法弄清楚如何将此向量转换为列,以便我获得一个新的转换数据框.以这个数据集为例: >>>fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0
..
鉴于我的 pyspark Row 对象: >>>排Row(clicked=0, features=SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752}))>>>行点击0>>>行.特征SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752})>>>类型(行.特征)
..
我正面临一个我多年未能解决的问题. 我使用的是 Spark 1.4 和 Scala 2.10.我现在无法升级(大型分布式基础架构) 我有一个包含几百列的文件,其中只有 2 列是字符串,其余都是长列.我想将此数据转换为标签/特征数据框. 我已经能够将其转换为 LibSVM 格式. 我只是无法将其转换为标签/功能格式. 原因 我无法使用这里显示的 toDF()htt
..
我正在研究 spark mllib 算法.我拥有的数据集是这种形式 Company":"XXXX","CurrentTitle":"XYZ","Edu_Title":"ABC","Exp_mnth":.(还有更多类似的值) 我正在尝试将字符串值原始编码为数字值.因此,我尝试使用 zipwithuniqueID 作为每个字符串值的唯一值.出于某种原因,我无法将修改后的数据集保存到磁盘.我
..