apache-spark-ml 第4页 - IT屋-程序员软件开发技术分享社区

XGBoost Spark 每个工人集成一个模型

尝试使用此笔记本 ..

发布时间：2021-11-14 21:10:56 apache-spark pyspark apache-spark-mllib xgboost apache-spark-ml 其他开发

Spark MLlib 示例，NoSuchMethodError: org.apache.spark.sql.SQLContext.createDataFrame()

我正在关注文档示例示例:估计器、转换器和参数我收到了错误消息 15/09/23 11:46:51 INFO BlockManagerMaster:注册的 BlockManager线程“main"中的异常 java.lang.NoSuchMethodError:scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassL ..

发布时间：2021-11-14 21:10:53 scala apache-spark sbt apache-spark-ml apache-spark-mllib 其他开发

我训练了一个 LDA 模型并将其加载到环境中以转换新数据: from pyspark.ml.clustering import LocalLDAModellda = LocalLDAModel.load(path)df = lda.transform(文本) 模型将添加一个名为 topicDistribution 的新列.在我看来，对于相同的输入，这个分布应该是相同的，否则这个模型是不一致的. ..

发布时间：2021-11-14 21:10:50 apache-spark pyspark apache-spark-mllib lda apache-spark-ml 其他开发

带有流源的查询必须使用 writeStream.start(); 执行；

我正在尝试使用 Spark 结构化流式传输从 Kafka 读取数据并预测表单传入数据.我正在使用我使用 Spark ML 训练过的模型. val spark = SparkSession.builder().appName("Spark SQL 基本示例").master("本地").getOrCreate()导入 spark.implicits._val toString = udf((pay ..

发布时间：2021-11-14 21:10:29 apache-spark spark-streaming apache-spark-mllib apache-spark-ml spark-structured-streaming 其他开发

使用基于 Spark 数据集的 ML API 时初始化逻辑回归系数?

默认情况下，逻辑回归训练将系数初始化为全零.但是，我想自己初始化系数.这将很有用，例如，如果之前的训练运行在多次迭代后崩溃——我可以简单地使用最后一组已知的系数重新开始训练. 是否可以使用任何基于数据集/数据帧的 API，最好是 Scala? 看Spark源码，好像有一个方法setInitialModel来初始化模型及其系数，MLlib.幸运的是，同一个包中的其他类不会被着色. ..

发布时间：2021-11-14 21:10:25 apache-spark apache-spark-mllib apache-spark-ml 其他开发

仅将 Spark ML 管道用于转换

我正在从事一个项目，在该项目中，可配置的管道和对 Spark DataFrame 更改的沿袭跟踪都是必不可少的.此管道的端点通常只是修改后的 DataFrame(将其视为 ETL 任务).对我来说最有意义的是利用现有的 Spark ML Pipeline API 来跟踪这些更改.特别是，更改(基于其他人添加列等)是作为自定义 Spark ML Transformer 实现的. 但是，我们现在 ..

发布时间：2021-11-14 21:10:16 apache-spark apache-spark-mllib apache-spark-ml 其他开发

格式化 Spark ML 的数据

我是 Spark 和 Spark ML 的新手.我使用函数 KMeansDataGenerator.generateKMeansRDD 生成了一些数据，但是在格式化这些数据时我失败了，以便它可以被 ML 算法使用(这里是 K-Means). 错误是线程“main"中的异常 java.lang.IllegalArgumentException: 不支持数据类型 ArrayType(Do ..

发布时间：2021-11-14 21:08:36 apache-spark apache-spark-sql rdd apache-spark-mllib apache-spark-ml 其他开发

带有 DataFrame API 的 Apache Spark MLlib 在 createDataFrame() 或 read().csv(...) 时给出 java.net.URISyntaxException

在独立应用程序中(在 java8、Windows 10 上运行，使用 spark-xxx_2.11:2.0.0 作为 jar 依赖项)下一个代码给出错误: /* 这个:*/数据集logData = spark_session.createDataFrame(Arrays.asList(new LabeledPoint(1.0, Vectors.dense(4.9,3,1.4,0.2)),new ..

发布时间：2021-11-14 21:08:10 java apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml Java开发

在 Spark 中将列标记为分类

我目前正在使用 StringIndexer 将许多列转换为唯一的整数，以便在 RandomForestModel 中进行分类.我也在为 ML 过程使用管道. 有些查询是 RandomForestModel 如何知道哪些列是分类的.StringIndexer 将非数字转换为数字，但它是否添加了某种元数据以表明它是一个分类列?在 mllib.tree.RF 中，有参数调用 categori ..

发布时间：2021-11-14 21:07:42 scala apache-spark random-forest apache-spark-mllib apache-spark-ml 其他开发

将稀疏特征向量分解为单独的列

在我的 spark DataFrame 中，有一列包含 CountVectoriser 转换的输出 - 它采用稀疏矢量格式.我想要做的是再次将这一列“分解"成一个密集的向量，然后它是组成行(这样它就可以被外部模型用于评分). 我知道该列中有 40 个功能，因此遵循这个例子，我试过: import org.apache.spark.sql.functions.udf导入 org.apach ..

发布时间：2021-11-14 21:07:39 scala apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml 其他开发

在 columnSimilarties() Spark scala 之后获取列名

我正在尝试使用 spark 中的 columnSimilarities() 构建基于项目的协同过滤模型.使用 columnsSimilarities() 后，我想将原始列名分配回 Spark scala 中的结果. 在数据框上计算 columnSimilarities() 的可运行代码. 数据 //rddval rowsRdd: RDD[Row] = sc.parallelize(序 ..

发布时间：2021-11-14 21:07:36 scala apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml 其他开发

pyspark - 将一次热编码后获得的稀疏向量转换为列

我正在使用 apache Spark ML lib 来处理使用一种热编码的分类特征.编写以下代码后，我得到一个向量 c_idx_vec 作为一个热编码的输出.我确实了解如何解释这个输出向量，但我无法弄清楚如何将此向量转换为列，以便我获得一个新的转换数据框.以这个数据集为例: >>>fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0 ..

发布时间：2021-11-14 21:06:29 pyspark apache-spark-sql apache-spark-mllib apache-spark-ml one-hot-encoding 其他开发

如何在 Spark 中使用稀疏矩阵训练随机森林?

考虑这个使用 sparklyr 的简单示例: 库(sparklyr)library(janeaustenr) # 获取一些文本数据图书馆(字符串)图书馆(dplyr)mytext %mutate(label = as.integer(str_detect(text, 'great'))) #创建一个假标签变量mytext_spark ..

发布时间：2021-11-14 21:06:26 r apache-spark apache-spark-mllib apache-spark-ml sparklyr 其他开发

如何从 org.apache.spark.mllib.linalg.VectorUDT 转换为 ml.linalg.VectorUDT

我使用的是 Spark cluster 2.0，我想将向量从 org.apache.spark.mllib.linalg.VectorUDT 转换为 org.apache.spark.ml.linalg.VectorUDT. # 导入 LinearRegression 类从 pyspark.ml.regression 导入 LinearRegression# 定义线性回归算法lr = 线性回归( ..

发布时间：2021-11-14 21:06:22 apache-spark machine-learning pyspark apache-spark-mllib apache-spark-ml AI人工智能

无法转换类型 <class 'pyspark.ml.linalg.SparseVector'>进入向量

鉴于我的 pyspark Row 对象: >>>排Row(clicked=0, features=SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752}))>>>行点击0>>>行.特征SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752})>>>类型(行.特征) ..

发布时间：2021-11-14 21:06:19 apache-spark pyspark apache-spark-sql apache-spark-mllib apache-spark-ml 其他开发

有什么方法可以从 PySpark PipelineModel 的各个阶段访问方法?

我创建了一个 PipelineModel 用于在 Spark 2.0 中执行 LDA(通过 PySpark API): def create_lda_pipeline(minTokenLength=1, minDF=1, minTF=1, numTopics=10, seed=42, pattern='[\W]+'):"""创建用于在语料库上运行 LDA 模型的管道.这个函数不需要数据，实际上不 ..

发布时间：2021-11-14 21:06:02 python apache-spark pyspark apache-spark-mllib apache-spark-ml Python

如何使用 CrossValidator 获得精度/召回率以使用 Spark 训练 NaiveBayes 模型

假设我有一个这样的管道: val tokenizer = new Tokenizer().setInputCol("tweet").setOutputCol("words")val hashingTF = new HashingTF().setNumFeatures(1000).setInputCol("words").setOutputCol("features")val idf = new ..

发布时间：2021-11-14 21:05:49 apache-spark apache-spark-mllib apache-spark-ml apache-spark-1.5 其他开发

PySpark:获取 Spark ML 多层感知器分类器的输出层神经元值

我正在使用 Spark ML 多层感知器分类器进行二元分类. mlp = MultilayerPerceptronClassifier(labelCol="evt", featuresCol="features", layers=[inputneurons,(inputneurons*2)+1,2]) 输出层有两个神经元，因为它是一个二元分类问题.现在我想为测试集中的每一行获取两个神经元的值， ..

发布时间：2021-11-14 21:05:38 apache-spark neural-network apache-spark-mllib apache-spark-ml 其他开发

如何在mllib中准备训练数据

TL;DR;如何使用 mllib 训练我的 wiki 数据(文本和类别)以预测推文? 我无法弄清楚如何转换我的标记化 wiki 数据，以便它可以通过 NaiveBayes 或 LogisticRegression 进行训练.我的目标是使用经过训练的模型与推文*进行比较.我已经尝试将管道与 LR 和 HashingTF 与 IDF 一起用于 NaiveBayes，但我一直得到错误的预测.这是我 ..

发布时间：2021-11-14 21:05:24 apache-spark apache-spark-mllib apache-spark-ml 其他开发

在 Pyspark 中将稀疏向量转换为密集向量

我有一个像这样的稀疏向量 >>>countVectors.rdd.map(lambda 向量:vector[1]).collect()[SparseVector(13, {0: 1.0, 2: 1.0, 3: 1.0, 6: 1.0, 8: 1.0, 9: 1.0, 10: 1.0, 12: 1.0}), SparseVector(13, {0: 1.0, 1: 1.0, 2: 1.0, 4: ..

发布时间：2021-11-14 21:05:21 apache-spark pyspark apache-spark-mllib apache-spark-ml 其他开发

apache-spark-ml相关内容