apache-spark-ml相关内容

火花流中的ML模型更新

我已经通过Spark批处理作业在HDFS中持久化了机器学习模型,我正在使用它。基本上,ML模型是从Spark驱动程序向所有执行器广播的。 有人能建议我如何在不停止Spark流作业的情况下实时更新模型吗?基本上,当有更多的数据点可用时,将创建一个新的ML模型,但不知道如何将新模型发送给Spark Executor。 请求发布一些示例代码。 问候, Deepak。 推荐答案 最好的方 ..
发布时间:2022-03-29 20:08:51 其他开发

如何从 PySpark MultilayerPerceptronClassifier 获得分类概率?

我在 python 中使用 Spark 2.0.1,我的数据集在 DataFrame 中,所以我使用 ML(不是 MLLib)库进行机器学习.我有一个多层感知器分类器,但只有两个标签. 我的问题是,是否有可能不仅获得标签,而且(或仅)获得该标签的概率?不仅仅是每个输入的 0 或 1,而是 0.95 表示 0 和 0.05 表示 1.如果 MLP 无法做到这一点,但其他分类器可以做到,我可以更 ..

如何在 PySpark 中打印用于预测特定行样本的决策路径/规则?

如何在 Spark DataFrame 中打印特定样本的决策路径? Spark 版本:'2.3.1' 下面的代码打印了整个模型的决策路径,如何让它打印特定样本的决策路径?比如tagvalue ball等于2的那一行的决策路径 import pyspark.sql.functions as F从 pyspark.ml 导入管道、变压器从 pyspark.sql 导入数据帧从 pyspark.m ..
发布时间:2021-12-22 21:41:52 其他开发

如何将列声明为 DataFrame 中的分类特征以用于 ml

如何声明我的 DataFrame 中的给定列包含分类信息? 我有一个从数据库加载的 Spark SQL DataFrame.这个 DataFrame 中的许多列都有分类信息,但它们被编码为 Longs(为了隐私). 我希望能够告诉 spark-ml,即使此列是数值,但信息实际上是分类的.类别的索引可能有一些漏洞,这是可以接受的.(例如,一列可能有值 [1, 0, 0 ,4]) 我 ..
发布时间:2021-12-22 21:28:02 Python

如何将 VectorAssembler 的输出中的特征映射回 Spark ML 中的列名?

我正在尝试在 PySpark 中运行线性回归,并且我想创建一个包含汇总统计信息的表格,例如数据集中每一列的系数、P 值和 t 值.但是,为了训练线性回归模型,我必须使用 Spark 的 VectorAssembler 创建一个特征向量,现在对于每一行,我都有一个特征向量和目标列.当我尝试访问 Spark 的内置回归汇总统计数据时,它们为我提供了每个统计数据的原始数字列表,并且无法知道哪个属性对应哪 ..

字段“特征"不存在.火花ML

我正在尝试使用 Zeppelin 在 Spark ML 中构建模型.我是这个领域的新手,需要一些帮助.我想我需要为列设置正确的数据类型并将第一列设置为标签.任何帮助将不胜感激,谢谢 val training = sc.textFile("hdfs:///ford/fordTrain.csv")val 标头 = training.firstval inferSchema = trueval df ..
发布时间:2021-11-14 23:51:53 其他开发

将 DataFrame 保存到 Hive 时 Spark Scala 错误

我通过组合多个数组构建了一个 DataFrame.我正在尝试将其保存到配置单元表中,但出现 ArrayIndexOutofBound 异常.以下是代码和我得到的错误.我尝试在 main def 内外添加 case 类,但仍然遇到相同的错误. import org.apache.spark.{SparkConf, SparkContext}导入 org.apache.spark.sql.{Row, ..

如何将 csv 字符串转换为 Spark-ML 兼容的数据集<Row>格式?

我有一个 Datasetdf,包含 string 类型的两列(“key"和“value").df.printSchema();给我以下输出: root|-- 键:字符串(可为空 = 真)|-- 值:字符串(可为空 = 真) value 列的内容实际上是一个 csv 格式的行(来自 kafka 主题),该行的最后一个条目代表类标签,所有之前的条目代表特征(第一行不包含在数据集中): featu ..

PySpark 在嵌套数组中反转 StringIndexer

我正在使用 PySpark 使用 ALS 进行协同过滤.我的原始用户和项目 ID 是字符串,因此我使用 StringIndexer 将它们转换为数字索引(PySpark 的 ALS 模型要求我们这样做). 在我拟合模型后,我可以获得每个用户的前 3 个推荐,如下所示: recs = (模型.recommendForAllUsers(3)) recs 数据框如下所示: +-------- ..
发布时间:2021-11-14 22:57:42 Python

带有 DataFrame API 的 Apache Spark MLlib 在 createDataFrame() 或 read().csv(...) 时给出 java.net.URISyntaxException

在独立应用程序中(在 java8、Windows 10 上运行,使用 spark-xxx_2.11:2.0.0 作为 jar 依赖项)下一个代码给出错误: /* 这个:*/数据集logData = spark_session.createDataFrame(Arrays.asList(new LabeledPoint(1.0, Vectors.dense(4.9,3,1.4,0.2)),new ..

pyspark - 将一次热编码后获得的稀疏向量转换为列

我正在使用 apache Spark ML lib 来处理使用一种热编码的分类特征.编写以下代码后,我得到一个向量 c_idx_vec 作为一个热编码的输出.我确实了解如何解释这个输出向量,但我无法弄清楚如何将此向量转换为列,以便我获得一个新的转换数据框.以这个数据集为例: >>>fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0 ..