apache-spark-ml相关内容
尝试使用此笔记本
..
我正在关注文档示例 示例:估计器、转换器和参数 我收到了错误消息 15/09/23 11:46:51 INFO BlockManagerMaster:注册的 BlockManager线程“main"中的异常 java.lang.NoSuchMethodError:scala.reflect.api.JavaUniverse.runtimeMirror(Ljava/lang/ClassL
..
我训练了一个 LDA 模型并将其加载到环境中以转换新数据: from pyspark.ml.clustering import LocalLDAModellda = LocalLDAModel.load(path)df = lda.transform(文本) 模型将添加一个名为 topicDistribution 的新列.在我看来,对于相同的输入,这个分布应该是相同的,否则这个模型是不一致的.
..
我正在尝试使用 Spark 结构化流式传输从 Kafka 读取数据并预测表单传入数据.我正在使用我使用 Spark ML 训练过的模型. val spark = SparkSession.builder().appName("Spark SQL 基本示例").master("本地").getOrCreate()导入 spark.implicits._val toString = udf((pay
..
默认情况下,逻辑回归训练将系数初始化为全零.但是,我想自己初始化系数.这将很有用,例如,如果之前的训练运行在多次迭代后崩溃——我可以简单地使用最后一组已知的系数重新开始训练. 是否可以使用任何基于数据集/数据帧的 API,最好是 Scala? 看Spark源码,好像有一个方法setInitialModel来初始化模型及其系数,MLlib.幸运的是,同一个包中的其他类不会被着色.
..
我正在从事一个项目,在该项目中,可配置的管道和对 Spark DataFrame 更改的沿袭跟踪都是必不可少的.此管道的端点通常只是修改后的 DataFrame(将其视为 ETL 任务).对我来说最有意义的是利用现有的 Spark ML Pipeline API 来跟踪这些更改.特别是,更改(基于其他人添加列等)是作为自定义 Spark ML Transformer 实现的. 但是,我们现在
..
我是 Spark 和 Spark ML 的新手.我使用函数 KMeansDataGenerator.generateKMeansRDD 生成了一些数据,但是在格式化这些数据时我失败了,以便它可以被 ML 算法使用(这里是 K-Means). 错误是 线程“main"中的异常 java.lang.IllegalArgumentException: 不支持数据类型 ArrayType(Do
..
在独立应用程序中(在 java8、Windows 10 上运行,使用 spark-xxx_2.11:2.0.0 作为 jar 依赖项)下一个代码给出错误: /* 这个:*/数据集logData = spark_session.createDataFrame(Arrays.asList(new LabeledPoint(1.0, Vectors.dense(4.9,3,1.4,0.2)),new
..
我目前正在使用 StringIndexer 将许多列转换为唯一的整数,以便在 RandomForestModel 中进行分类.我也在为 ML 过程使用管道. 有些查询是 RandomForestModel 如何知道哪些列是分类的.StringIndexer 将非数字转换为数字,但它是否添加了某种元数据以表明它是一个分类列?在 mllib.tree.RF 中,有参数调用 categori
..
在我的 spark DataFrame 中,有一列包含 CountVectoriser 转换的输出 - 它采用稀疏矢量格式.我想要做的是再次将这一列“分解"成一个密集的向量,然后它是组成行(这样它就可以被外部模型用于评分). 我知道该列中有 40 个功能,因此遵循 这个例子,我试过: import org.apache.spark.sql.functions.udf导入 org.apach
..
我正在尝试使用 spark 中的 columnSimilarities() 构建基于项目的协同过滤模型.使用 columnsSimilarities() 后,我想将原始列名分配回 Spark scala 中的结果. 在数据框上计算 columnSimilarities() 的可运行代码. 数据 //rddval rowsRdd: RDD[Row] = sc.parallelize(序
..
我正在使用 apache Spark ML lib 来处理使用一种热编码的分类特征.编写以下代码后,我得到一个向量 c_idx_vec 作为一个热编码的输出.我确实了解如何解释这个输出向量,但我无法弄清楚如何将此向量转换为列,以便我获得一个新的转换数据框.以这个数据集为例: >>>fd = spark.createDataFrame( [(1.0, "a"), (1.5, "a"), (10.0
..
考虑这个使用 sparklyr 的简单示例: 库(sparklyr)library(janeaustenr) # 获取一些文本数据图书馆(字符串)图书馆(dplyr)mytext %mutate(label = as.integer(str_detect(text, 'great'))) #创建一个假标签变量mytext_spark
..
我使用的是 Spark cluster 2.0,我想将向量从 org.apache.spark.mllib.linalg.VectorUDT 转换为 org.apache.spark.ml.linalg.VectorUDT. # 导入 LinearRegression 类从 pyspark.ml.regression 导入 LinearRegression# 定义线性回归算法lr = 线性回归(
..
鉴于我的 pyspark Row 对象: >>>排Row(clicked=0, features=SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752}))>>>行点击0>>>行.特征SparseVector(7, {0: 1.0, 3: 1.0, 6: 0.752})>>>类型(行.特征)
..
我创建了一个 PipelineModel 用于在 Spark 2.0 中执行 LDA(通过 PySpark API): def create_lda_pipeline(minTokenLength=1, minDF=1, minTF=1, numTopics=10, seed=42, pattern='[\W]+'):"""创建用于在语料库上运行 LDA 模型的管道.这个函数不需要数据,实际上不
..
假设我有一个这样的管道: val tokenizer = new Tokenizer().setInputCol("tweet").setOutputCol("words")val hashingTF = new HashingTF().setNumFeatures(1000).setInputCol("words").setOutputCol("features")val idf = new
..
我正在使用 Spark ML 多层感知器分类器进行二元分类. mlp = MultilayerPerceptronClassifier(labelCol="evt", featuresCol="features", layers=[inputneurons,(inputneurons*2)+1,2]) 输出层有两个神经元,因为它是一个二元分类问题.现在我想为测试集中的每一行获取两个神经元的值,
..
TL;DR;如何使用 mllib 训练我的 wiki 数据(文本和类别)以预测推文? 我无法弄清楚如何转换我的标记化 wiki 数据,以便它可以通过 NaiveBayes 或 LogisticRegression 进行训练.我的目标是使用经过训练的模型与推文*进行比较.我已经尝试将管道与 LR 和 HashingTF 与 IDF 一起用于 NaiveBayes,但我一直得到错误的预测.这是我
..
我有一个像这样的稀疏向量 >>>countVectors.rdd.map(lambda 向量:vector[1]).collect()[SparseVector(13, {0: 1.0, 2: 1.0, 3: 1.0, 6: 1.0, 8: 1.0, 9: 1.0, 10: 1.0, 12: 1.0}), SparseVector(13, {0: 1.0, 1: 1.0, 2: 1.0, 4:
..