apache-spark-ml - IT屋-程序员软件开发技术分享社区

Spark中的多输出分类

我们是否可以像在skLearning中执行MultiOutputClassifier()那样，在Pyspark中预测多个目标变量？我有一个包含多个目标变量的数据集 Problem Complexity Skill1 Skill2 Skill3 Skill4 Skill5 0 Pbl1 Low 7 0 ..

火花流中的ML模型更新

我已经通过Spark批处理作业在HDFS中持久化了机器学习模型，我正在使用它。基本上，ML模型是从Spark驱动程序向所有执行器广播的。有人能建议我如何在不停止Spark流作业的情况下实时更新模型吗？基本上，当有更多的数据点可用时，将创建一个新的ML模型，但不知道如何将新模型发送给Spark Executor。请求发布一些示例代码。问候， Deepak。推荐答案最好的方 ..

发布时间：2022-03-29 20:08:51 spark-streaming apache-spark-ml 其他开发

如何从 PySpark MultilayerPerceptronClassifier 获得分类概率?

我在 python 中使用 Spark 2.0.1，我的数据集在 DataFrame 中，所以我使用 ML(不是 MLLib)库进行机器学习.我有一个多层感知器分类器，但只有两个标签. 我的问题是，是否有可能不仅获得标签，而且(或仅)获得该标签的概率?不仅仅是每个输入的 0 或 1，而是 0.95 表示 0 和 0.05 表示 1.如果 MLP 无法做到这一点，但其他分类器可以做到，我可以更 ..

发布时间：2021-12-31 16:59:35 apache-spark machine-learning neural-network pyspark apache-spark-ml AI人工智能

如何在 PySpark 中打印用于预测特定行样本的决策路径/规则?

如何在 Spark DataFrame 中打印特定样本的决策路径? Spark 版本:'2.3.1' 下面的代码打印了整个模型的决策路径，如何让它打印特定样本的决策路径?比如tagvalue ball等于2的那一行的决策路径 import pyspark.sql.functions as F从 pyspark.ml 导入管道、变压器从 pyspark.sql 导入数据帧从 pyspark.m ..

发布时间：2021-12-22 21:41:52 apache-spark pyspark apache-spark-ml 其他开发

在 Spark ML/pyspark 中以编程方式创建特征向量

我想知道是否有一种简洁的方法可以在 pyspark 中的 DataFrame 上运行 ML(例如 KMeans)，如果我有多个数字列中的功能. 即如在 Iris 数据集中: (a1=5.1, a2=3.5, a3=1.4, a4=0.2, id=u'id_1', label=u'Iris-setosa', binomial_label=1) 我想使用 KMeans 而不用手动添加特征向量 ..

发布时间：2021-12-22 21:34:22 python apache-spark pyspark apache-spark-ml Python

如何将 LIBSVM 模型(使用 LIBSVM 保存)读入 PySpark?

我有一个 LIBSVM 缩放模型(使用 svm-scale 生成)，我想将其移植到 PySpark.我天真地尝试了以下内容: scaler_path = "模型路径"a = MinMaxScaler().load(scaler_path) 但是我抛出了一个错误，需要一个元数据目录: Py4JJavaErrorTraceback(最近一次调用) ..

发布时间：2021-12-22 21:31:10 apache-spark pyspark libsvm apache-spark-ml 其他开发

如何将列声明为 DataFrame 中的分类特征以用于 ml

如何声明我的 DataFrame 中的给定列包含分类信息? 我有一个从数据库加载的 Spark SQL DataFrame.这个 DataFrame 中的许多列都有分类信息，但它们被编码为 Longs(为了隐私). 我希望能够告诉 spark-ml，即使此列是数值，但信息实际上是分类的.类别的索引可能有一些漏洞，这是可以接受的.(例如，一列可能有值 [1, 0, 0 ,4]) 我 ..

发布时间：2021-12-22 21:28:02 python apache-spark pyspark apache-spark-ml Python

如何将 VectorAssembler 的输出中的特征映射回 Spark ML 中的列名?

我正在尝试在 PySpark 中运行线性回归，并且我想创建一个包含汇总统计信息的表格，例如数据集中每一列的系数、P 值和 t 值.但是，为了训练线性回归模型，我必须使用 Spark 的 VectorAssembler 创建一个特征向量，现在对于每一行，我都有一个特征向量和目标列.当我尝试访问 Spark 的内置回归汇总统计数据时，它们为我提供了每个统计数据的原始数字列表，并且无法知道哪个属性对应哪 ..

发布时间：2021-12-09 23:43:42 python apache-spark machine-learning pyspark apache-spark-ml AI人工智能

在 PySpark ML 中创建自定义转换器

我是 Spark SQL DataFrames 和 ML (PySpark) 的新手.如何创建自定义标记器，例如删除停用词并使用 ..

发布时间：2021-12-09 23:20:15 python apache-spark nltk pyspark apache-spark-ml Python

字段“特征"不存在.火花ML

我正在尝试使用 Zeppelin 在 Spark ML 中构建模型.我是这个领域的新手，需要一些帮助.我想我需要为列设置正确的数据类型并将第一列设置为标签.任何帮助将不胜感激，谢谢 val training = sc.textFile("hdfs:///ford/fordTrain.csv")val 标头 = training.firstval inferSchema = trueval df ..

发布时间：2021-11-14 23:51:53 scala apache-zeppelin apache-spark-ml 其他开发

将 DataFrame 保存到 Hive 时 Spark Scala 错误

我通过组合多个数组构建了一个 DataFrame.我正在尝试将其保存到配置单元表中，但出现 ArrayIndexOutofBound 异常.以下是代码和我得到的错误.我尝试在 main def 内外添加 case 类，但仍然遇到相同的错误. import org.apache.spark.{SparkConf, SparkContext}导入 org.apache.spark.sql.{Row, ..

发布时间：2021-11-14 23:18:53 scala apache-spark apache-spark-sql spark-dataframe apache-spark-ml 其他开发

Spark ML Kmeans 给出:org.apache.spark.SparkException:无法执行用户定义的函数($anonfun$2: (vector) => int)

我尝试加载 KmeansModel，然后从中取出标签: 这是我写的代码: val kMeansModel = KMeansModel.load(trainedMlModel.mlModelFilePath)val arrayOfElements = measurePoint.measurements.map(a => a._2).toSeqprintln(s"ArrayOfELement ..

发布时间：2021-11-14 23:17:20 apache-spark apache-spark-sql k-means apache-spark-mllib apache-spark-ml 其他开发

如何将 csv 字符串转换为 Spark-ML 兼容的数据集<Row>格式?

我有一个 Datasetdf，包含 string 类型的两列(“key"和“value").df.printSchema();给我以下输出: root|-- 键:字符串(可为空 = 真)|-- 值:字符串(可为空 = 真) value 列的内容实际上是一个 csv 格式的行(来自 kafka 主题)，该行的最后一个条目代表类标签，所有之前的条目代表特征(第一行不包含在数据集中): featu ..

发布时间：2021-11-14 23:11:48 java apache-spark apache-spark-sql apache-spark-ml apache-spark-dataset Java开发

PySpark 在嵌套数组中反转 StringIndexer

我正在使用 PySpark 使用 ALS 进行协同过滤.我的原始用户和项目 ID 是字符串，因此我使用 StringIndexer 将它们转换为数字索引(PySpark 的 ALS 模型要求我们这样做). 在我拟合模型后，我可以获得每个用户的前 3 个推荐，如下所示: recs = (模型.recommendForAllUsers(3)) recs 数据框如下所示: +-------- ..

发布时间：2021-11-14 22:57:42 python apache-spark pyspark apache-spark-sql apache-spark-ml Python

格式化 Spark ML 的数据

我是 Spark 和 Spark ML 的新手.我使用函数 KMeansDataGenerator.generateKMeansRDD 生成了一些数据，但是在格式化这些数据时我失败了，以便它可以被 ML 算法使用(这里是 K-Means). 错误是线程“main"中的异常 java.lang.IllegalArgumentException: 不支持数据类型 ArrayType(Do ..

发布时间：2021-11-14 22:53:16 apache-spark apache-spark-sql rdd apache-spark-mllib apache-spark-ml 其他开发

带有 DataFrame API 的 Apache Spark MLlib 在 createDataFrame() 或 read().csv(...) 时给出 java.net.URISyntaxException

在独立应用程序中(在 java8、Windows 10 上运行，使用 spark-xxx_2.11:2.0.0 作为 jar 依赖项)下一个代码给出错误: /* 这个:*/数据集logData = spark_session.createDataFrame(Arrays.asList(new LabeledPoint(1.0, Vectors.dense(4.9,3,1.4,0.2)),new ..

发布时间：2021-11-14 22:51:21 java apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml Java开发

在 columnSimilarties() Spark scala 之后获取列名

我正在尝试使用 spark 中的 columnSimilarities() 构建基于项目的协同过滤模型.使用 columnsSimilarities() 后，我想将原始列名分配回 Spark scala 中的结果. 在数据框上计算 columnSimilarities() 的可运行代码. 数据 //rddval rowsRdd: RDD[Row] = sc.parallelize(序 ..

发布时间：2021-11-14 22:48:17 scala apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml 其他开发

如何解释火花逻辑回归预测中的概率列?

我通过 spark.ml.classification.LogisticRegressionModel.predict 获得预测.许多行将 prediction 列设为 1.0，将 probability 列设为 .04.model.getThreshold 是 0.5 所以我假设模型将超过 0.5 概率阈值的所有内容分类为 1.0. 我应该如何解释具有 1.0 prediction 和 p ..

发布时间：2021-11-14 22:41:07 apache-spark machine-learning apache-spark-sql logistic-regression apache-spark-ml AI人工智能

pyspark - 将一次热编码后获得的稀疏向量转换为列

我正在使用 apache Spark ML lib 来处理使用一种热编码的分类特征.编写以下代码后，我得到一个向量 c_idx_vec 作为一个热编码的输出.我确实了解如何解释这个输出向量，但我无法弄清楚如何将此向量转换为列，以便我获得一个新的转换数据框.以这个数据集为例: >>>fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0 ..

发布时间：2021-11-14 22:40:34 pyspark apache-spark-sql apache-spark-mllib apache-spark-ml one-hot-encoding 其他开发

无法转换类型 <class 'pyspark.ml.linalg.SparseVector'>进入向量

鉴于我的 pyspark Row 对象: >>>排Row(clicked=0, features=SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752}))>>>行点击0>>>行.特征SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752})>>>类型(行.特征) ..

发布时间：2021-11-14 22:40:10 apache-spark pyspark apache-spark-sql apache-spark-mllib apache-spark-ml 其他开发

apache-spark-ml相关内容