apache-spark-ml相关内容
我们是否可以像在skLearning中执行MultiOutputClassifier()那样,在Pyspark中预测多个目标变量? 我有一个包含多个目标变量的数据集 Problem Complexity Skill1 Skill2 Skill3 Skill4 Skill5 0 Pbl1 Low 7 0
..
我已经通过Spark批处理作业在HDFS中持久化了机器学习模型,我正在使用它。基本上,ML模型是从Spark驱动程序向所有执行器广播的。 有人能建议我如何在不停止Spark流作业的情况下实时更新模型吗?基本上,当有更多的数据点可用时,将创建一个新的ML模型,但不知道如何将新模型发送给Spark Executor。 请求发布一些示例代码。 问候, Deepak。 推荐答案 最好的方
..
我在 python 中使用 Spark 2.0.1,我的数据集在 DataFrame 中,所以我使用 ML(不是 MLLib)库进行机器学习.我有一个多层感知器分类器,但只有两个标签. 我的问题是,是否有可能不仅获得标签,而且(或仅)获得该标签的概率?不仅仅是每个输入的 0 或 1,而是 0.95 表示 0 和 0.05 表示 1.如果 MLP 无法做到这一点,但其他分类器可以做到,我可以更
..
如何在 Spark DataFrame 中打印特定样本的决策路径? Spark 版本:'2.3.1' 下面的代码打印了整个模型的决策路径,如何让它打印特定样本的决策路径?比如tagvalue ball等于2的那一行的决策路径 import pyspark.sql.functions as F从 pyspark.ml 导入管道、变压器从 pyspark.sql 导入数据帧从 pyspark.m
..
我想知道是否有一种简洁的方法可以在 pyspark 中的 DataFrame 上运行 ML(例如 KMeans),如果我有多个数字列中的功能. 即如在 Iris 数据集中: (a1=5.1, a2=3.5, a3=1.4, a4=0.2, id=u'id_1', label=u'Iris-setosa', binomial_label=1) 我想使用 KMeans 而不用手动添加特征向量
..
我有一个 LIBSVM 缩放模型(使用 svm-scale 生成),我想将其移植到 PySpark.我天真地尝试了以下内容: scaler_path = "模型路径"a = MinMaxScaler().load(scaler_path) 但是我抛出了一个错误,需要一个元数据目录: Py4JJavaErrorTraceback(最近一次调用)
..
如何声明我的 DataFrame 中的给定列包含分类信息? 我有一个从数据库加载的 Spark SQL DataFrame.这个 DataFrame 中的许多列都有分类信息,但它们被编码为 Longs(为了隐私). 我希望能够告诉 spark-ml,即使此列是数值,但信息实际上是分类的.类别的索引可能有一些漏洞,这是可以接受的.(例如,一列可能有值 [1, 0, 0 ,4]) 我
..
我正在尝试在 PySpark 中运行线性回归,并且我想创建一个包含汇总统计信息的表格,例如数据集中每一列的系数、P 值和 t 值.但是,为了训练线性回归模型,我必须使用 Spark 的 VectorAssembler 创建一个特征向量,现在对于每一行,我都有一个特征向量和目标列.当我尝试访问 Spark 的内置回归汇总统计数据时,它们为我提供了每个统计数据的原始数字列表,并且无法知道哪个属性对应哪
..
我是 Spark SQL DataFrames 和 ML (PySpark) 的新手.如何创建自定义标记器,例如删除停用词并使用
..
我正在尝试使用 Zeppelin 在 Spark ML 中构建模型.我是这个领域的新手,需要一些帮助.我想我需要为列设置正确的数据类型并将第一列设置为标签.任何帮助将不胜感激,谢谢 val training = sc.textFile("hdfs:///ford/fordTrain.csv")val 标头 = training.firstval inferSchema = trueval df
..
我通过组合多个数组构建了一个 DataFrame.我正在尝试将其保存到配置单元表中,但出现 ArrayIndexOutofBound 异常.以下是代码和我得到的错误.我尝试在 main def 内外添加 case 类,但仍然遇到相同的错误. import org.apache.spark.{SparkConf, SparkContext}导入 org.apache.spark.sql.{Row,
..
我尝试加载 KmeansModel,然后从中取出标签: 这是我写的代码: val kMeansModel = KMeansModel.load(trainedMlModel.mlModelFilePath)val arrayOfElements = measurePoint.measurements.map(a => a._2).toSeqprintln(s"ArrayOfELement
..
我有一个 Datasetdf,包含 string 类型的两列(“key"和“value").df.printSchema();给我以下输出: root|-- 键:字符串(可为空 = 真)|-- 值:字符串(可为空 = 真) value 列的内容实际上是一个 csv 格式的行(来自 kafka 主题),该行的最后一个条目代表类标签,所有之前的条目代表特征(第一行不包含在数据集中): featu
..
我正在使用 PySpark 使用 ALS 进行协同过滤.我的原始用户和项目 ID 是字符串,因此我使用 StringIndexer 将它们转换为数字索引(PySpark 的 ALS 模型要求我们这样做). 在我拟合模型后,我可以获得每个用户的前 3 个推荐,如下所示: recs = (模型.recommendForAllUsers(3)) recs 数据框如下所示: +--------
..
我是 Spark 和 Spark ML 的新手.我使用函数 KMeansDataGenerator.generateKMeansRDD 生成了一些数据,但是在格式化这些数据时我失败了,以便它可以被 ML 算法使用(这里是 K-Means). 错误是 线程“main"中的异常 java.lang.IllegalArgumentException: 不支持数据类型 ArrayType(Do
..
在独立应用程序中(在 java8、Windows 10 上运行,使用 spark-xxx_2.11:2.0.0 作为 jar 依赖项)下一个代码给出错误: /* 这个:*/数据集logData = spark_session.createDataFrame(Arrays.asList(new LabeledPoint(1.0, Vectors.dense(4.9,3,1.4,0.2)),new
..
我正在尝试使用 spark 中的 columnSimilarities() 构建基于项目的协同过滤模型.使用 columnsSimilarities() 后,我想将原始列名分配回 Spark scala 中的结果. 在数据框上计算 columnSimilarities() 的可运行代码. 数据 //rddval rowsRdd: RDD[Row] = sc.parallelize(序
..
我通过 spark.ml.classification.LogisticRegressionModel.predict 获得预测.许多行将 prediction 列设为 1.0,将 probability 列设为 .04.model.getThreshold 是 0.5 所以我假设模型将超过 0.5 概率阈值的所有内容分类为 1.0. 我应该如何解释具有 1.0 prediction 和 p
..
我正在使用 apache Spark ML lib 来处理使用一种热编码的分类特征.编写以下代码后,我得到一个向量 c_idx_vec 作为一个热编码的输出.我确实了解如何解释这个输出向量,但我无法弄清楚如何将此向量转换为列,以便我获得一个新的转换数据框.以这个数据集为例: >>>fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0
..
鉴于我的 pyspark Row 对象: >>>排Row(clicked=0, features=SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752}))>>>行点击0>>>行.特征SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752})>>>类型(行.特征)
..