apache-spark-mllib - IT屋-程序员软件开发技术分享社区

PySpark MLLIB随机林：预测始终为0

使用ml、Spark 2.0(Python)和一个120万行的数据集，我试图创建一个使用Random Forest Classifier预测购买趋势的模型。但是，当将转换应用于拆分的test数据集时，预测始终为0。数据集如下所示： [Row(tier_buyer=u'0', N1=u'1', N2=u'0.72', N3=u'35.0', N4=u'65.81', N5=u'30.6 ..

发布时间：2022-08-14 22:43:44 pyspark classification random-forest apache-spark-mllib 其他开发

PySpark &MLLib:随机森林特征的重要性

我正在尝试提取我使用 PySpark 训练的随机森林对象的特征重要性.但是，我在文档的任何地方都没有看到这样做的示例，也不是 RandomForestModel 的方法. 如何从 PySpark 中的 RandomForestModel 回归器或分类器中提取特征重要性? 这是文档中提供的示例代码，让我们开始；但是，其中没有提及特征重要性. from pyspark.mllib.tre ..

发布时间：2021-11-28 21:43:43 apache-spark pyspark random-forest apache-spark-mllib 其他开发

使用 Word2VecModel.transform() 在地图功能中不起作用

我使用 Spark 构建了一个 Word2Vec 模型并将其保存为模型.现在，我想在另一个代码中使用它作为离线模型.我已经加载了模型并用它来呈现一个词的向量(例如你好)，它运行良好.但是，我需要在 RDD 中使用 map 调用很多词. 当我在 map 函数中调用 model.transform() 时，它抛出这个错误: “看来您正试图从广播中引用 SparkContext"例外:您似乎 ..

发布时间：2021-11-28 21:43:33 python apache-spark pyspark apache-spark-mllib word2vec Python

如何为 Spark MLlib 模型提供服务?

我正在评估用于基于 ML 的生产应用程序的工具，我们的选择之一是 Spark MLlib，但我对如何在训练后提供模型有一些疑问? 例如，在 Azure ML 中，一旦经过训练，模型就会作为 Web 服务公开，可以从任何应用程序中使用，这与 Amazon ML 的情况类似. 您如何在 Apache Spark 中提供/部署 ML 模型? 解决方案一方面，使用 Spark 构建的 ..

发布时间：2021-11-28 21:43:07 apache-spark machine-learning apache-spark-mllib AI人工智能

如何将 mllib 矩阵转换为 spark 数据帧?

我想在 zeppelin 笔记本中漂亮地打印相关结果: val Row(coeff: Matrix) = Correlation.corr(data, "features").head 实现此目的的方法之一是将结果转换为 DataFrame，每个值位于单独的列中并调用 z.show(). 但是，查看 Matrix api 我看不出有什么办法可以做到这一点. 是否有另一种直接的方法来 ..

发布时间：2021-11-14 23:50:07 scala apache-spark matrix apache-spark-mllib apache-zeppelin 其他开发

Spark MLLib 中 Kmeans++ 中的初始化步骤参数究竟是什么?

我知道 k-means 是什么，我也知道 k-means++ 算法是什么.我相信唯一的变化是找到初始 K 中心的方式. 在 ++ 版本中，我们最初选择一个中心，然后使用概率分布选择剩余的 k-1 个中心. 在 k-means 的 MLLib 算法中，initializationSteps 参数是什么? 解决方案准确地说，k-means++ 是一种选择初始中心的算法，它并没有描 ..

发布时间：2021-11-14 23:26:24 apache-spark pyspark apache-spark-sql apache-spark-mllib 其他开发

Spark ML Kmeans 给出:org.apache.spark.SparkException:无法执行用户定义的函数($anonfun$2: (vector) => int)

我尝试加载 KmeansModel，然后从中取出标签: 这是我写的代码: val kMeansModel = KMeansModel.load(trainedMlModel.mlModelFilePath)val arrayOfElements = measurePoint.measurements.map(a => a._2).toSeqprintln(s"ArrayOfELement ..

发布时间：2021-11-14 23:17:20 apache-spark apache-spark-sql k-means apache-spark-mllib apache-spark-ml 其他开发

我想使用 VectorAssembler 将多列转换为一列，但默认情况下数据是压缩的，没有其他选项. val arr2= Array((1,2,0,0,0),(1,2,3,0,0),(1,2,4,5,0),(1,2,2,5,6))val df=sc.parallelize(arr2).toDF("a","b","c","e","f")val colNames=Array("a","b","c", ..

发布时间：2021-11-14 23:14:00 scala apache-spark apache-spark-sql spark-dataframe apache-spark-mllib 其他开发

在 spark 中使用 LSH 对数据帧中的每个点运行最近邻查询

对于数据帧中的每个特征向量，我需要 k 个最近的邻居.我正在使用来自 pyspark 的 BucketedRandomProjectionLSHModel. 创建模型的代码 brp = BucketedRandomProjectionLSH(inputCol="features", outputCol="hashes",seed=12345, bucketLength=n)模型 = brp ..

发布时间：2021-11-14 23:11:03 apache-spark pyspark apache-spark-mllib pyspark-sql 其他开发

在 spark 中使用 LSH 对数据帧中的每个点运行最近邻查询

对于数据帧中的每个特征向量，我需要 k 个最近的邻居.我正在使用来自 pyspark 的 BucketedRandomProjectionLSHModel. 创建模型的代码 brp = BucketedRandomProjectionLSH(inputCol="features", outputCol="hashes",seed=12345, bucketLength=n)模型 = brp ..

发布时间：2021-11-14 23:10:19 apache-spark pyspark apache-spark-mllib pyspark-sql 其他开发

我应该如何将 org.apache.spark.ml.linalg.Vector 的 RDD 转换为数据集?

我正在努力理解 RDD、DataSet 和 DataFrame 之间的转换是如何工作的.我对 Spark 很陌生，每次我需要从数据模型传递到另一个数据模型(尤其是从 RDD 到数据集和数据帧)时，我都会卡住.谁能给我解释一下正确的做法? 举个例子，现在我有一个 RDD[org.apache.spark.ml.linalg.Vector] 并且我需要将它传递给我的机器学习算法，例如一个 KMe ..

发布时间：2021-11-14 23:04:10 apache-spark apache-spark-sql rdd apache-spark-mllib apache-spark-dataset 其他开发

格式化 Spark ML 的数据

我是 Spark 和 Spark ML 的新手.我使用函数 KMeansDataGenerator.generateKMeansRDD 生成了一些数据，但是在格式化这些数据时我失败了，以便它可以被 ML 算法使用(这里是 K-Means). 错误是线程“main"中的异常 java.lang.IllegalArgumentException: 不支持数据类型 ArrayType(Do ..

发布时间：2021-11-14 22:53:16 apache-spark apache-spark-sql rdd apache-spark-mllib apache-spark-ml 其他开发

带有 DataFrame API 的 Apache Spark MLlib 在 createDataFrame() 或 read().csv(...) 时给出 java.net.URISyntaxException

在独立应用程序中(在 java8、Windows 10 上运行，使用 spark-xxx_2.11:2.0.0 作为 jar 依赖项)下一个代码给出错误: /* 这个:*/数据集logData = spark_session.createDataFrame(Arrays.asList(new LabeledPoint(1.0, Vectors.dense(4.9,3,1.4,0.2)),new ..

发布时间：2021-11-14 22:51:21 java apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml Java开发

如何使用包含点/句点的列名创建火花数据框?

我有一个列表中的数据，我想将其转换为一个包含“."的列名的 spark 数据框我编写了以下代码，运行时没有任何错误. input_data = [('retail', '2017-01-03T13:21:00', 134),('零售', '2017-01-03T13:21:00', 100)]rdd_schema = StructType([StructField('business', ..

发布时间：2021-11-14 22:49:12 apache-spark pyspark apache-spark-sql spark-dataframe apache-spark-mllib 其他开发

在 columnSimilarties() Spark scala 之后获取列名

我正在尝试使用 spark 中的 columnSimilarities() 构建基于项目的协同过滤模型.使用 columnsSimilarities() 后，我想将原始列名分配回 Spark scala 中的结果. 在数据框上计算 columnSimilarities() 的可运行代码. 数据 //rddval rowsRdd: RDD[Row] = sc.parallelize(序 ..

发布时间：2021-11-14 22:48:17 scala apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml 其他开发

Spark 仅获取具有一个或多个空值的列

我想从数据框中获取包含至少一个空值的列的名称. 考虑下面的数据框: val dataset = sparkSession.createDataFrame(Seq((7, null, 18, 1.0),(8, "CA", null, 0.0),(9, "新西兰", 15, 0.0))).toDF("id", "country", "hour", "clicked") 我想获取列名称“国家/ ..

发布时间：2021-11-14 22:44:30 scala apache-spark apache-spark-sql spark-dataframe apache-spark-mllib 其他开发

pyspark - 将一次热编码后获得的稀疏向量转换为列

我正在使用 apache Spark ML lib 来处理使用一种热编码的分类特征.编写以下代码后，我得到一个向量 c_idx_vec 作为一个热编码的输出.我确实了解如何解释这个输出向量，但我无法弄清楚如何将此向量转换为列，以便我获得一个新的转换数据框.以这个数据集为例: >>>fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0 ..

发布时间：2021-11-14 22:40:34 pyspark apache-spark-sql apache-spark-mllib apache-spark-ml one-hot-encoding 其他开发

无法转换类型 <class 'pyspark.ml.linalg.SparseVector'>进入向量

鉴于我的 pyspark Row 对象: >>>排Row(clicked=0, features=SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752}))>>>行点击0>>>行.特征SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752})>>>类型(行.特征) ..

发布时间：2021-11-14 22:40:10 apache-spark pyspark apache-spark-sql apache-spark-mllib apache-spark-ml 其他开发

Spark DataFrame 不尊重模式并将所有内容视为字符串

我正面临一个我多年未能解决的问题. 我使用的是 Spark 1.4 和 Scala 2.10.我现在无法升级(大型分布式基础架构) 我有一个包含几百列的文件，其中只有 2 列是字符串，其余都是长列.我想将此数据转换为标签/特征数据框. 我已经能够将其转换为 LibSVM 格式. 我只是无法将其转换为标签/功能格式. 原因我无法使用这里显示的 toDF()htt ..

发布时间：2021-11-14 22:30:00 scala apache-spark apache-spark-sql apache-spark-mllib scala-collections 其他开发

如何在 spark SQL 中为表添加增量列 ID

我正在研究 spark mllib 算法.我拥有的数据集是这种形式 Company":"XXXX","CurrentTitle":"XYZ","Edu_Title":"ABC","Exp_mnth":.(还有更多类似的值) 我正在尝试将字符串值原始编码为数字值.因此，我尝试使用 zipwithuniqueID 作为每个字符串值的唯一值.出于某种原因，我无法将修改后的数据集保存到磁盘.我 ..

发布时间：2021-11-14 22:29:30 apache-spark apache-spark-sql spark-dataframe apache-spark-mllib 其他开发

apache-spark-mllib相关内容

PySpark MLLIB随机林：预测始终为0

PySpark &MLLib:随机森林特征的重要性

使用 Word2VecModel.transform() 在地图功能中不起作用

如何为 Spark MLlib 模型提供服务?

如何将 mllib 矩阵转换为 spark 数据帧?

Spark MLLib 中 Kmeans++ 中的初始化步骤参数究竟是什么?

Spark ML Kmeans 给出:org.apache.spark.SparkException:无法执行用户定义的函数($anonfun$2: (vector) => int)

如何让 VectorAssembler 不压缩数据?

在 spark 中使用 LSH 对数据帧中的每个点运行最近邻查询

在 spark 中使用 LSH 对数据帧中的每个点运行最近邻查询

我应该如何将 org.apache.spark.ml.linalg.Vector 的 RDD 转换为数据集?

格式化 Spark ML 的数据

带有 DataFrame API 的 Apache Spark MLlib 在 createDataFrame() 或 read().csv(...) 时给出 java.net.URISyntaxException

如何使用包含点/句点的列名创建火花数据框?

在 columnSimilarties() Spark scala 之后获取列名

Spark 仅获取具有一个或多个空值的列

pyspark - 将一次热编码后获得的稀疏向量转换为列

无法转换类型 <class 'pyspark.ml.linalg.SparseVector'>进入向量

Spark DataFrame 不尊重模式并将所有内容视为字符串

如何在 spark SQL 中为表添加增量列 ID