apache-spark-ml相关内容

Spark MLlib中DataFrame的“rawPrediction"和“probability"列是什么意思?

在我训练了一个 LogisticRegressionModel 之后,我用它转换了测试数据 DF 并得到了预测 DF.然后当我调用 prediction.show() 时,输出列名称为:[label |特点 |原始预测 |概率|预测].我知道label 和featrues 是什么意思,但我应该如何理解rawPrediction|probability|prediction? 解决方案 注意 ..

Spark ML StringIndexer 不同标签训练/测试

我正在使用 Scala 并使用 StringIndexer 为我的训练集中的每个类别分配索引.它根据每个类别的频率分配索引. 问题是在我的测试数据中,类别的频率不同,因此 StringIndexer 为类别分配了不同的索引,这使我无法正确评估模型(随机森林). 我正在以完全相同的方式处理训练/测试数据,并且不保存模型. 我尝试手动创建标签(通过获取类别的索引),但出现此错误 j ..
发布时间:2021-11-14 22:11:42 其他开发

pyspark.sql.utils.IllegalArgumentException: u'Field "features";不存在.'

我正在尝试执行随机森林分类器并使用交叉验证评估模型.我与 pySpark 一起工作.输入的 CSV 文件以 Spark DataFrame 格式加载.但是我在构建模型时遇到了一个问题. 下面是代码. from pyspark import SparkContext从 pyspark.sql 导入 SQLContext从 pyspark.ml 导入管道从 pyspark.ml.classif ..

如何将带有 SparseVector 列的 RDD 转换为带有列作为向量的 DataFrame

我有一个带有值元组(String、SparseVector)的 RDD,我想使用 RDD 创建一个 DataFrame.获取 (label:string, features:vector) DataFrame 这是大多数 ml 算法库所需的 Schema.我知道可以这样做,因为 HashingTF ml 库在给定 DataFrame 的特征列时输出一个向量. temp_df = sqlConte ..

Spark 结构化流和 Spark-Ml 回归

是否可以将 Spark-Ml 回归应用于流媒体源?我看到有 StreamingLogisticRegressionWithSGD 但它是针对较旧的 RDD API 而我 无法将其与结构化流媒体源一起使用. 我应该如何对结构化流媒体源应用回归? (有点过时)如果我不能使用流 API 进行回归,我如何以批处理方式提交偏移量?(卡夫卡接收器) 解决方案 今天(Spark 2.2/2.3) ..
发布时间:2021-11-14 21:49:11 其他开发

如何将数据从 DataFrame 准备成 LibSVM 格式?

我想制作libsvm格式,所以我将dataframe制作成想要的格式,但是我不知道如何转换为libsvm格式.格式如图所示.我希望所需的 libsvm 类型是 user item:rating .如果您知道在当前情况下该怎么做: val ratings = sc.textFile(new File("/user/ubuntu/kang/0829/rawRatings.csv").toString ..