apache-spark-ml相关内容

LDA 模型预测不一致

我训练了一个 LDA 模型并将其加载到环境中以转换新数据: from pyspark.ml.clustering import LocalLDAModellda = LocalLDAModel.load(path)df = lda.transform(文本) 模型将添加一个名为 topicDistribution 的新列.在我看来,对于相同的输入,这个分布应该是相同的,否则这个模型是不一致的. ..

带有流源的查询必须使用 writeStream.start(); 执行;

我正在尝试使用 Spark 结构化流式传输从 Kafka 读取数据并预测表单传入数据.我正在使用我使用 Spark ML 训练过的模型. val spark = SparkSession.builder().appName("Spark SQL 基本示例").master("本地").getOrCreate()导入 spark.implicits._val toString = udf((pay ..

使用基于 Spark 数据集的 ML API 时初始化逻辑回归系数?

默认情况下,逻辑回归训练将系数初始化为全零.但是,我想自己初始化系数.这将很有用,例如,如果之前的训练运行在多次迭代后崩溃——我可以简单地使用最后一组已知的系数重新开始训练. 是否可以使用任何基于数据集/数据帧的 API,最好是 Scala? 看Spark源码,好像有一个方法setInitialModel来初始化模型及其系数,MLlib.幸运的是,同一个包中的其他类不会被着色. ..
发布时间:2021-11-14 21:10:25 其他开发

仅将 Spark ML 管道用于转换

我正在从事一个项目,在该项目中,可配置的管道和对 Spark DataFrame 更改的沿袭跟踪都是必不可少的.此管道的端点通常只是修改后的 DataFrame(将其视为 ETL 任务).对我来说最有意义的是利用现有的 Spark ML Pipeline API 来跟踪这些更改.特别是,更改(基于其他人添加列等)是作为自定义 Spark ML Transformer 实现的. 但是,我们现在 ..
发布时间:2021-11-14 21:10:16 其他开发

带有 DataFrame API 的 Apache Spark MLlib 在 createDataFrame() 或 read().csv(...) 时给出 java.net.URISyntaxException

在独立应用程序中(在 java8、Windows 10 上运行,使用 spark-xxx_2.11:2.0.0 作为 jar 依赖项)下一个代码给出错误: /* 这个:*/数据集logData = spark_session.createDataFrame(Arrays.asList(new LabeledPoint(1.0, Vectors.dense(4.9,3,1.4,0.2)),new ..

在 Spark 中将列标记为分类

我目前正在使用 StringIndexer 将许多列转换为唯一的整数,以便在 RandomForestModel 中进行分类.我也在为 ML 过程使用管道. 有些查询是 RandomForestModel 如何知道哪些列是分类的.StringIndexer 将非数字转换为数字,但它是否添加了某种元数据以表明它是一个分类列?在 mllib.tree.RF 中,有参数调用 categori ..

将稀疏特征向量分解为单独的列

在我的 spark DataFrame 中,有一列包含 CountVectoriser 转换的输出 - 它采用稀疏矢量格式.我想要做的是再次将这一列“分解"成一个密集的向量,然后它是组成行(这样它就可以被外部模型用于评分). 我知道该列中有 40 个功能,因此遵循 这个例子,我试过: import org.apache.spark.sql.functions.udf导入 org.apach ..

pyspark - 将一次热编码后获得的稀疏向量转换为列

我正在使用 apache Spark ML lib 来处理使用一种热编码的分类特征.编写以下代码后,我得到一个向量 c_idx_vec 作为一个热编码的输出.我确实了解如何解释这个输出向量,但我无法弄清楚如何将此向量转换为列,以便我获得一个新的转换数据框.以这个数据集为例: >>>fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0 ..

PySpark:获取 Spark ML 多层感知器分类器的输出层神经元值

我正在使用 Spark ML 多层感知器分类器进行二元分类. mlp = MultilayerPerceptronClassifier(labelCol="evt", featuresCol="features", layers=[inputneurons,(inputneurons*2)+1,2]) 输出层有两个神经元,因为它是一个二元分类问题.现在我想为测试集中的每一行获取两个神经元的值, ..

如何在mllib中准备训练数据

TL;DR;如何使用 mllib 训练我的 wiki 数据(文本和类别)以预测推文? 我无法弄清楚如何转换我的标记化 wiki 数据,以便它可以通过 NaiveBayes 或 LogisticRegression 进行训练.我的目标是使用经过训练的模型与推文*进行比较.我已经尝试将管道与 LR 和 HashingTF 与 IDF 一起用于 NaiveBayes,但我一直得到错误的预测.这是我 ..
发布时间:2021-11-14 21:05:24 其他开发