apache-spark-ml 第2页 - IT屋-程序员软件开发技术分享社区

如何在没有 StringIndexer 的 Spark ML 中进行二进制分类

我尝试在没有 StringIndexer 的 Pipeline 中使用 Spark ML DecisionTreeClassifier，因为我的特性已经被索引为 (0.0; 1.0).DecisionTreeClassifier 作为标签需要双值，所以这段代码应该可以工作: def trainDecisionTreeModel(training: RDD[LabeledPoint], sqlc: ..

发布时间：2021-11-14 22:36:59 scala apache-spark classification apache-spark-sql apache-spark-ml 其他开发

无法在简单示例上从 spark ML 运行 RandomForestClassifier

我尝试从 spark.ml 包(版本 1.5.2)运行实验性的 RandomForestClassifier.我使用的数据集来自中的 LogisticRegression 示例Spark 机器学习指南. 代码如下: import org.apache.spark.ml.classification.LogisticRegression导入 org.apache.spark.ml.para ..

发布时间：2021-11-14 22:26:40 scala apache-spark dataframe apache-spark-sql apache-spark-ml 其他开发

我们是否应该像在训练前并行化 Seq 一样并行化 DataFrame

考虑这里给出的代码， https://spark.apache.org/docs/1.2.0/ml-guide.html import org.apache.spark.ml.classification.LogisticRegressionval 训练 = sparkContext.parallelize(Seq(LabeledPoint(1.0, Vectors.dense(0.0, ..

发布时间：2021-11-14 22:18:25 scala apache-spark pyspark apache-spark-sql apache-spark-ml 其他开发

保留索引字符串对应火花字符串索引器

Spark 的 StringIndexer 非常有用，但是通常需要检索生成的索引值和原始字符串之间的对应关系，并且似乎应该有一种内置的方法来完成此操作.我将使用 Spark 文档: from pyspark.ml.feature import StringIndexerdf = sqlContext.createDataFrame([(0, "a"), (1, "b"), (2, "c"), ( ..

发布时间：2021-11-14 22:18:16 python apache-spark apache-spark-sql pyspark apache-spark-ml Python

Spark MLlib中DataFrame的“rawPrediction"和“probability"列是什么意思?

发布时间：2021-11-14 22:16:52 apache-spark-sql logistic-regression apache-spark-ml 其他开发

Spark ML StringIndexer 不同标签训练/测试

我正在使用 Scala 并使用 StringIndexer 为我的训练集中的每个类别分配索引.它根据每个类别的频率分配索引. 问题是在我的测试数据中，类别的频率不同，因此 StringIndexer 为类别分配了不同的索引，这使我无法正确评估模型(随机森林). 我正在以完全相同的方式处理训练/测试数据，并且不保存模型. 我尝试手动创建标签(通过获取类别的索引)，但出现此错误 j ..

发布时间：2021-11-14 22:11:42 apache-spark spark-dataframe apache-spark-ml 其他开发

pyspark.sql.utils.IllegalArgumentException: u'Field "features";不存在.'

我正在尝试执行随机森林分类器并使用交叉验证评估模型.我与 pySpark 一起工作.输入的 CSV 文件以 Spark DataFrame 格式加载.但是我在构建模型时遇到了一个问题. 下面是代码. from pyspark import SparkContext从 pyspark.sql 导入 SQLContext从 pyspark.ml 导入管道从 pyspark.ml.classif ..

发布时间：2021-11-14 22:05:14 apache-spark pyspark apache-spark-sql spark-dataframe apache-spark-ml 其他开发

如何将带有 SparseVector 列的 RDD 转换为带有列作为向量的 DataFrame

我有一个带有值元组(String、SparseVector)的 RDD，我想使用 RDD 创建一个 DataFrame.获取 (label:string, features:vector) DataFrame 这是大多数 ml 算法库所需的 Schema.我知道可以这样做，因为 HashingTF ml 库在给定 DataFrame 的特征列时输出一个向量. temp_df = sqlConte ..

发布时间：2021-11-14 21:51:54 apache-spark pyspark apache-spark-sql apache-spark-mllib apache-spark-ml 其他开发

Spark 结构化流和 Spark-Ml 回归

是否可以将 Spark-Ml 回归应用于流媒体源?我看到有 StreamingLogisticRegressionWithSGD 但它是针对较旧的 RDD API 而我无法将其与结构化流媒体源一起使用. 我应该如何对结构化流媒体源应用回归? (有点过时)如果我不能使用流 API 进行回归，我如何以批处理方式提交偏移量?(卡夫卡接收器) 解决方案今天(Spark 2.2/2.3) ..

发布时间：2021-11-14 21:49:11 apache-spark apache-spark-sql apache-spark-ml 其他开发

SparkException:要组装的值不能为空

我想使用 StandardScaler 来规范化特征. 这是我的代码: val Array(trainingData, testData) = dataset.randomSplit(Array(0.7,0.3))val vectorAssembler = new VectorAssembler().setInputCols(inputCols).setOutputCol("feature ..

发布时间：2021-11-14 21:41:18 apache-spark apache-spark-sql apache-spark-ml 其他开发

如何将数据从 DataFrame 准备成 LibSVM 格式?

我想制作libsvm格式，所以我将dataframe制作成想要的格式，但是我不知道如何转换为libsvm格式.格式如图所示.我希望所需的 libsvm 类型是 user item:rating .如果您知道在当前情况下该怎么做: val ratings = sc.textFile(new File("/user/ubuntu/kang/0829/rawRatings.csv").toString ..

发布时间：2021-11-14 21:39:25 apache-spark apache-spark-sql apache-spark-mllib libsvm apache-spark-ml 其他开发

Spark、Scala、DataFrame:创建特征向量

我有一个 DataFrame，如下所示: 用户ID、类别、频率1,cat1,11,cat2,31,cat9,52,cat4,62,cat9,22,cat10,13,cat1,53,cat7,163,cat8,2 不同类别的数量是 10，我想为每个 userID 创建一个特征向量，并用零填充缺失的类别. 所以输出将类似于: userID,feature1,[1,3,0,0,0,0,0,0 ..

发布时间：2021-11-14 21:38:50 scala apache-spark apache-spark-sql apache-spark-ml 其他开发

将数据从 Dataframe 传递到现有 ML VectorIndexerModel 时出错

我有一个数据框，我想用它对现有模型进行预测.使用模型的转换方法时出错. 这就是我处理训练数据的方式. forecast.printSchema() 我的数据框的架构: root|-- PM10: double (nullable = false)|--rain_3h: double (nullable = false)|-- is_rain: double (nullable = fa ..

发布时间：2021-11-14 21:37:52 python apache-spark pyspark apache-spark-sql apache-spark-ml Python

Apache Spark 遇到缺失功能时抛出 NullPointerException

在对功能中的字符串列进行索引时，我在 PySpark 上遇到了一个奇怪的问题.这是我的 tmp.csv 文件: x0,x1,x2,x3asd2s,1e1e,1.1,0asd2s,1e1e,0.1,0,1e3e,1.2,0bd34t,1e1e,5.1,1asd2s,1e3e,0.2,0bd34t,1e2e,4.3,1 我有一个缺失的“x0"值.首先，我使用 pyspark_csv 将 csv 文 ..

发布时间：2021-11-14 21:36:57 python apache-spark apache-spark-sql pyspark apache-spark-ml Python

理解 Spark SQL 中向量列的表示

在我使用 VectorAssembler() 来整合一些 OneHotEncoded 分类特征之前...我的数据框看起来像这样: |数字|热编码1|热编码2|14460.0|(44,[5],[1.0])|(3,[0],[1.0])||14460.0|(44,[9],[1.0])|(3,[0],[1.0])||15181.0|(44,[1],[1.0])|(3,[0],[1.0])| 第一列是数 ..

发布时间：2021-11-14 21:36:37 apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml 其他开发

Spark、DataFrame:在组上应用转换器/估计器

我有一个如下所示的 DataFrame: +-----------+-----+------------+|用户ID|组|特点|+------------+-----+------------+|12462563356|1|[5.0,43.0]||12462563701|2|[1.0,8.0]||12462563701|1|[2.0,12.0]||12462564356|1|[1.0,1.0]| ..

发布时间：2021-11-14 21:31:09 apache-spark spark-dataframe apache-spark-mllib apache-spark-ml 其他开发

带点火花的列名

我正在尝试从 DataFrame 中获取列并将其转换为 RDD[Vector]. 问题是我的名称中有一个“点"的列作为以下数据集: "col0.1","col1.2","col2.3","col3.4"1、2、3、410、12、15、31、12、10、5 这就是我正在做的: val df = spark.read.format("csv").options(Map("header" - ..

发布时间：2021-11-14 21:30:52 scala apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml 其他开发

如何从 UDF 创建自定义转换器?

我试图创建并保存一个 ..

发布时间：2021-11-14 21:30:39 scala apache-spark apache-spark-sql user-defined-functions apache-spark-ml 其他开发

如何在DataFrame中合并多个特征向量?

使用 Spark ML 转换器，我得到了一个 DataFrame，其中每一行如下所示: Row(object_id, text_features_vector, color_features, type_features) 其中 text_features 是词权重的稀疏向量，color_features 是一个小的 20 元素(one-hot-encoder)密集颜色向量，以及 type_f ..

发布时间：2021-11-14 21:29:54 apache-spark machine-learning apache-spark-sql apache-spark-ml AI人工智能

Spark DataFrame 中向量的访问元素(逻辑回归概率向量)

我在 PySpark(ML 包)中训练了 LogisticRegression 模型，预测结果是 PySpark DataFrame (cv_predictions)(参见 [1]).probability 列(参见 [2])是一种 vector 类型(参见 [3]). [1]类型(cv_predictions_prod)pyspark.sql.dataframe.DataFrame[2]cv_ ..

发布时间：2021-11-14 21:29:41 python apache-spark pyspark spark-dataframe apache-spark-ml Python

apache-spark-ml相关内容