apache-spark-ml相关内容

Spark 多类分类示例

你们知道我在哪里可以找到 Spark 中多类分类的示例.我花了很多时间在书籍和网络上搜索,到目前为止,我只知道根据文档从最新版本开始是可能的. 解决方案 ML (在 Spark 2.0+ 中推荐) 我们将使用与下面 MLlib 中相同的数据.有两个基本选项.如果 Estimator 支持开箱即用的多类分类(例如随机森林),您可以直接使用它: val trainRawDf = ..

在 Spark 中的 map 函数内运行 ML 算法

所以我几天来一直在尝试在 Spark 的映射函数中运行 ML 算法.我发布了一个更具体的问题但引用Spark 的 ML 算法给了我以下错误: AttributeError: 无法从 SparkContext 加载 _jvm.SparkContext 是否已初始化? 显然我不能在 apply_classifier 函数中引用 SparkContext.我的代码类似于我在上一个问题中提出的建议,但 ..

如何将数据从 DataFrame 准备成 LibSVM 格式?

我想制作libsvm格式,所以我将dataframe制作成想要的格式,但是我不知道如何转换为libsvm格式.格式如图所示.我希望所需的 libsvm 类型是 user item:rating .如果您知道在当前情况下该怎么做: val ratings = sc.textFile(new File("/user/ubuntu/kang/0829/rawRatings.csv").toString ..

VectorUDT 用法

我必须获取数据类型并进行大小写匹配并将其转换为某种所需的格式.但是 org.apache.spark.ml.linalg.VectorUDT 的用法显示 VectorUDT 是 private.另外我特别需要使用 org.apache.spark.ml.linalg.VectorUDT 而不是 org.apache.spark.mllib.linalg.VectorUDT.有人可以建议如何解决这个 ..

Spark ML - 保存 OneVsRestModel

我正在重构我的代码以利用 DataFrames, Estimators和管道.我最初在 MLlib Multiclass LogisticRegressionWithLBFGS 上使用 代码>RDD[LabeledPoint].我很享受学习和使用新 API,但我不确定如何保存我的新模型并将其应用于新数据. 目前,LogisticRegression 的 ML 实现仅支持二进制分类.我是,而不 ..

如何交叉验证 RandomForest 模型?

我想评估一个正在接受某些数据训练的随机森林.Apache Spark 中是否有任何实用程序可以执行相同操作,还是我必须手动执行交叉验证? 解决方案 ML 提供 CrossValidator 类,可用于执行交叉验证和参数搜索.假设您的数据已经过预处理,您可以按如下方式添加交叉验证: import org.apache.spark.ml.Pipeline导入 org.apache.spark ..

PySpark 中的 KMeans 聚类

我有一个包含许多列的 spark 数据框“mydataframe".我试图仅在两列上运行 kmeans:纬度和经度(纬度和经度),将它们用作简单值).我想仅基于那 2 列提取 7 个集群,然后我想将集群分配附加到我的原始数据帧.我试过了: from numpy import array从数学导入 sqrt从 pyspark.mllib.clustering 导入 KMeans, KMeansMo ..

Spark ML VectorAssembler 返回奇怪的输出

我遇到了 VectorAssembler 的一个非常奇怪的行为,我想知道是否有其他人看到过这个. 我的场景非常简单.我从 CSV 文件中解析数据,其中有一些标准的 Int 和 Double 字段,我还计算了一些额外的列.我的解析函数返回: val connected = countPerChannel ++ countPerSource//两个双打数组加入(label, orderNo, ..