apache-spark-ml相关内容
我尝试在没有 StringIndexer 的 Pipeline 中使用 Spark ML DecisionTreeClassifier,因为我的特性已经被索引为 (0.0; 1.0).DecisionTreeClassifier 作为标签需要双值,所以这段代码应该可以工作: def trainDecisionTreeModel(training: RDD[LabeledPoint], sqlc:
..
我尝试从 spark.ml 包(版本 1.5.2)运行实验性的 RandomForestClassifier.我使用的数据集来自 中的 LogisticRegression 示例Spark 机器学习指南. 代码如下: import org.apache.spark.ml.classification.LogisticRegression导入 org.apache.spark.ml.para
..
考虑这里给出的代码, https://spark.apache.org/docs/1.2.0/ml-guide.html import org.apache.spark.ml.classification.LogisticRegressionval 训练 = sparkContext.parallelize(Seq(LabeledPoint(1.0, Vectors.dense(0.0,
..
Spark 的 StringIndexer 非常有用,但是通常需要检索生成的索引值和原始字符串之间的对应关系,并且似乎应该有一种内置的方法来完成此操作.我将使用 Spark 文档: from pyspark.ml.feature import StringIndexerdf = sqlContext.createDataFrame([(0, "a"), (1, "b"), (2, "c"), (
..
在我训练了一个 LogisticRegressionModel 之后,我用它转换了测试数据 DF 并得到了预测 DF.然后当我调用 prediction.show() 时,输出列名称为:[label |特点 |原始预测 |概率|预测].我知道label 和featrues 是什么意思,但我应该如何理解rawPrediction|probability|prediction? 解决方案 注意
..
我正在使用 Scala 并使用 StringIndexer 为我的训练集中的每个类别分配索引.它根据每个类别的频率分配索引. 问题是在我的测试数据中,类别的频率不同,因此 StringIndexer 为类别分配了不同的索引,这使我无法正确评估模型(随机森林). 我正在以完全相同的方式处理训练/测试数据,并且不保存模型. 我尝试手动创建标签(通过获取类别的索引),但出现此错误 j
..
我正在尝试执行随机森林分类器并使用交叉验证评估模型.我与 pySpark 一起工作.输入的 CSV 文件以 Spark DataFrame 格式加载.但是我在构建模型时遇到了一个问题. 下面是代码. from pyspark import SparkContext从 pyspark.sql 导入 SQLContext从 pyspark.ml 导入管道从 pyspark.ml.classif
..
我有一个带有值元组(String、SparseVector)的 RDD,我想使用 RDD 创建一个 DataFrame.获取 (label:string, features:vector) DataFrame 这是大多数 ml 算法库所需的 Schema.我知道可以这样做,因为 HashingTF ml 库在给定 DataFrame 的特征列时输出一个向量. temp_df = sqlConte
..
是否可以将 Spark-Ml 回归应用于流媒体源?我看到有 StreamingLogisticRegressionWithSGD 但它是针对较旧的 RDD API 而我 无法将其与结构化流媒体源一起使用. 我应该如何对结构化流媒体源应用回归? (有点过时)如果我不能使用流 API 进行回归,我如何以批处理方式提交偏移量?(卡夫卡接收器) 解决方案 今天(Spark 2.2/2.3)
..
我想使用 StandardScaler 来规范化特征. 这是我的代码: val Array(trainingData, testData) = dataset.randomSplit(Array(0.7,0.3))val vectorAssembler = new VectorAssembler().setInputCols(inputCols).setOutputCol("feature
..
我想制作libsvm格式,所以我将dataframe制作成想要的格式,但是我不知道如何转换为libsvm格式.格式如图所示.我希望所需的 libsvm 类型是 user item:rating .如果您知道在当前情况下该怎么做: val ratings = sc.textFile(new File("/user/ubuntu/kang/0829/rawRatings.csv").toString
..
我有一个 DataFrame,如下所示: 用户ID、类别、频率1,cat1,11,cat2,31,cat9,52,cat4,62,cat9,22,cat10,13,cat1,53,cat7,163,cat8,2 不同类别的数量是 10,我想为每个 userID 创建一个特征向量,并用零填充缺失的类别. 所以输出将类似于: userID,feature1,[1,3,0,0,0,0,0,0
..
我有一个数据框,我想用它对现有模型进行预测.使用模型的转换方法时出错. 这就是我处理训练数据的方式. forecast.printSchema() 我的数据框的架构: root|-- PM10: double (nullable = false)|--rain_3h: double (nullable = false)|-- is_rain: double (nullable = fa
..
在对功能中的字符串列进行索引时,我在 PySpark 上遇到了一个奇怪的问题.这是我的 tmp.csv 文件: x0,x1,x2,x3asd2s,1e1e,1.1,0asd2s,1e1e,0.1,0,1e3e,1.2,0bd34t,1e1e,5.1,1asd2s,1e3e,0.2,0bd34t,1e2e,4.3,1 我有一个缺失的“x0"值.首先,我使用 pyspark_csv 将 csv 文
..
在我使用 VectorAssembler() 来整合一些 OneHotEncoded 分类特征之前...我的数据框看起来像这样: |数字|热编码1|热编码2|14460.0|(44,[5],[1.0])|(3,[0],[1.0])||14460.0|(44,[9],[1.0])|(3,[0],[1.0])||15181.0|(44,[1],[1.0])|(3,[0],[1.0])| 第一列是数
..
我有一个如下所示的 DataFrame: +-----------+-----+------------+|用户ID|组|特点|+------------+-----+------------+|12462563356|1|[5.0,43.0]||12462563701|2|[1.0,8.0]||12462563701|1|[2.0,12.0]||12462564356|1|[1.0,1.0]|
..
我正在尝试从 DataFrame 中获取列并将其转换为 RDD[Vector]. 问题是我的名称中有一个“点"的列作为以下数据集: "col0.1","col1.2","col2.3","col3.4"1、2、3、410、12、15、31、12、10、5 这就是我正在做的: val df = spark.read.format("csv").options(Map("header" -
..
我试图创建并保存一个
..
使用 Spark ML 转换器,我得到了一个 DataFrame,其中每一行如下所示: Row(object_id, text_features_vector, color_features, type_features) 其中 text_features 是词权重的稀疏向量,color_features 是一个小的 20 元素(one-hot-encoder)密集颜色向量,以及 type_f
..
我在 PySpark(ML 包)中训练了 LogisticRegression 模型,预测结果是 PySpark DataFrame (cv_predictions)(参见 [1]).probability 列(参见 [2])是一种 vector 类型(参见 [3]). [1]类型(cv_predictions_prod)pyspark.sql.dataframe.DataFrame[2]cv_
..