apache-spark-ml 第6页 - IT屋-程序员软件开发技术分享社区

Spark 多类分类示例

你们知道我在哪里可以找到 Spark 中多类分类的示例.我花了很多时间在书籍和网络上搜索，到目前为止，我只知道根据文档从最新版本开始是可能的. 解决方案 ML (在 Spark 2.0+ 中推荐) 我们将使用与下面 MLlib 中相同的数据.有两个基本选项.如果 Estimator 支持开箱即用的多类分类(例如随机森林)，您可以直接使用它: val trainRawDf = ..

发布时间：2021-11-14 21:00:45 scala apache-spark apache-spark-mllib random-forest apache-spark-ml 其他开发

在 Python 中从 Spark DataFrame 创建标记点

我使用 python 中的什么 .map() 函数从 spark 数据帧创建一组 labeledPoints ?如果标签/结果不是第一列，但我可以参考其列名“状态"，则表示法是什么? 我用这个 .map() 函数创建了 Python 数据框: def parsePoint(line):listmp = list(line.split('\t'))数据帧 = pd.DataFrame(pd. ..

发布时间：2021-11-14 21:00:42 python pandas apache-spark apache-spark-mllib apache-spark-ml Python

所以我几天来一直在尝试在 Spark 的映射函数中运行 ML 算法.我发布了一个更具体的问题但引用Spark 的 ML 算法给了我以下错误: AttributeError: 无法从 SparkContext 加载 _jvm.SparkContext 是否已初始化? 显然我不能在 apply_classifier 函数中引用 SparkContext.我的代码类似于我在上一个问题中提出的建议，但 ..

发布时间：2021-11-14 21:00:25 apache-spark machine-learning pyspark apache-spark-mllib apache-spark-ml AI人工智能

如何在 PySpark DataFrame 中将 ArrayType 转换为 DenseVector?

我在尝试构建 ML Pipeline 时遇到以下错误: pyspark.sql.utils.IllegalArgumentException:“要求失败:列特征必须是 org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7 类型，但实际上是 ArrayType(DoubleType,true)." My features 列包含一个浮点值数组.听起来我需要将 ..

发布时间：2021-11-14 20:59:35 python apache-spark pyspark apache-spark-mllib apache-spark-ml Python

管道后如何将变量名称映射到特征

我修改了 OneHotEncoder 示例以实际训练 LogisticRegression.我的问题是如何将生成的权重映射回分类变量? def oneHotEncoderExample(sqlContext: SQLContext): Unit = {val df = sqlContext.createDataFrame(Seq((0, "a", 1.0),(1, "b", 1.0),(2, " ..

发布时间：2021-11-14 20:59:29 scala apache-spark apache-spark-mllib apache-spark-ml 其他开发

如何从 PySpark 中的 spark.ml 中提取模型超参数?

我正在修改 PySpark 文档中的一些交叉验证代码，并试图让 PySpark 告诉我选择了什么模型: from pyspark.ml.classification import LogisticRegression从 pyspark.ml.evaluation 导入 BinaryClassificationEvaluator从 pyspark.mllib.linalg 导入向量从 pyspar ..

发布时间：2021-11-14 20:59:23 pyspark modeling cross-validation apache-spark-mllib apache-spark-ml 其他开发

如何将数据从 DataFrame 准备成 LibSVM 格式?

我想制作libsvm格式，所以我将dataframe制作成想要的格式，但是我不知道如何转换为libsvm格式.格式如图所示.我希望所需的 libsvm 类型是 user item:rating .如果您知道在当前情况下该怎么做: val ratings = sc.textFile(new File("/user/ubuntu/kang/0829/rawRatings.csv").toString ..

发布时间：2021-11-14 20:59:20 apache-spark apache-spark-sql apache-spark-mllib libsvm apache-spark-ml 其他开发

VectorUDT 用法

我必须获取数据类型并进行大小写匹配并将其转换为某种所需的格式.但是 org.apache.spark.ml.linalg.VectorUDT 的用法显示 VectorUDT 是 private.另外我特别需要使用 org.apache.spark.ml.linalg.VectorUDT 而不是 org.apache.spark.mllib.linalg.VectorUDT.有人可以建议如何解决这个 ..

发布时间：2021-11-14 20:59:04 apache-spark vector apache-spark-mllib apache-spark-ml 其他开发

为什么 StandardScaler 不将元数据附加到输出列?

我注意到 ml StandardScaler 没有将元数据附加到输出列: import org.apache.spark.ml.Pipeline导入 org.apache.spark.ml.feature._val df = spark.read.option("header", true).option("inferSchema", true).csv("/path/to/cars.data" ..

发布时间：2021-11-14 20:58:58 apache-spark apache-spark-mllib apache-spark-ml 其他开发

理解 Spark SQL 中向量列的表示

在我使用 VectorAssembler() 来整合一些 OneHotEncoded 分类特征之前...我的数据框看起来像这样: |数字|热编码1|热编码2|14460.0|(44,[5],[1.0])|(3,[0],[1.0])||14460.0|(44,[9],[1.0])|(3,[0],[1.0])||15181.0|(44,[1],[1.0])|(3,[0],[1.0])| 第一列是数 ..

发布时间：2021-11-14 20:58:55 apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml 其他开发

Spark ML - 保存 OneVsRestModel

我正在重构我的代码以利用 DataFrames, Estimators和管道.我最初在 MLlib Multiclass LogisticRegressionWithLBFGS 上使用代码>RDD[LabeledPoint].我很享受学习和使用新 API，但我不确定如何保存我的新模型并将其应用于新数据. 目前，LogisticRegression 的 ML 实现仅支持二进制分类.我是，而不 ..

发布时间：2021-11-14 20:58:45 scala apache-spark apache-spark-mllib apache-spark-ml 其他开发

如何在pyspark中将密集向量的RDD转换为DataFrame?

我有一个 DenseVector RDD 像这样 >>>frequencyDenseVectors.collect()[DenseVector([1.0, 0.0, 1.0, 1.0, 0.0, 0.0, 1.0, 0.0, 1.0, 1.0, 1.0, 0.0, 1.0]), DenseVector([1.0, 1.0, 1.0, ., 0.0.0.0], 0.0, 0.0, 0.0, 0.0 ..

发布时间：2021-11-14 20:58:31 apache-spark pyspark apache-spark-mllib apache-spark-ml apache-spark-2.0 其他开发

Spark中的特征归一化算法

试图理解 Spark 的归一化算法.我的小测试集包含 5 个向量: {0.95, 0.018, 0.0, 24.0, 24.0, 14.4, 70000.0},{1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 70000.0},{-1.0, -1.0, -1.0, -1.0, -1.0, -1.0, 70000.0},{-0.95, 0.018, 0.0, 24.0, 24.0, 1 ..

发布时间：2021-11-14 20:58:28 apache-spark apache-spark-mllib apache-spark-ml 其他开发

如何交叉验证 RandomForest 模型?

我想评估一个正在接受某些数据训练的随机森林.Apache Spark 中是否有任何实用程序可以执行相同操作，还是我必须手动执行交叉验证? 解决方案 ML 提供 CrossValidator 类，可用于执行交叉验证和参数搜索.假设您的数据已经过预处理，您可以按如下方式添加交叉验证: import org.apache.spark.ml.Pipeline导入 org.apache.spark ..

发布时间：2021-11-14 20:58:25 apache-spark random-forest cross-validation apache-spark-ml apache-spark-mllib 其他开发

PySpark 中的 KMeans 聚类

我有一个包含许多列的 spark 数据框“mydataframe".我试图仅在两列上运行 kmeans:纬度和经度(纬度和经度)，将它们用作简单值).我想仅基于那 2 列提取 7 个集群，然后我想将集群分配附加到我的原始数据帧.我试过了: from numpy import array从数学导入 sqrt从 pyspark.mllib.clustering 导入 KMeans, KMeansMo ..

发布时间：2021-11-14 20:58:09 machine-learning pyspark k-means apache-spark-mllib apache-spark-ml AI人工智能

Spark、DataFrame:在组上应用转换器/估计器

我有一个如下所示的 DataFrame: +-----------+-----+------------+|用户ID|组|特点|+------------+-----+------------+|12462563356|1|[5.0,43.0]||12462563701|2|[1.0,8.0]||12462563701|1|[2.0,12.0]||12462564356|1|[1.0,1.0]| ..

发布时间：2021-11-14 20:57:53 apache-spark spark-dataframe apache-spark-mllib apache-spark-ml 其他开发

带点火花的列名

我正在尝试从 DataFrame 中获取列并将其转换为 RDD[Vector]. 问题是我的名称中有一个“点"的列作为以下数据集: "col0.1","col1.2","col2.3","col3.4"1、2、3、410、12、15、31、12、10、5 这就是我正在做的: val df = spark.read.format("csv").options(Map("header" - ..

发布时间：2021-11-14 20:57:50 scala apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml 其他开发

将元数据附加到 Spark 中的向量列

背景:我有一个包含两列的数据框:标签和特征. org.apache.spark.sql.DataFrame = [label: int, features: vector] 其中 features 是使用 VectorAssembler 构建的数字类型的 mllib.linalg.VectorUDT. 问题:有没有办法为特征向量分配模式?我想跟踪每个功能的名称. 目前尝试过: v ..

发布时间：2021-11-14 20:57:47 scala apache-spark apache-spark-mllib apache-spark-ml 其他开发

如何为 ML 算法矢量化 DataFrame 列?

有一个带有一些分类字符串值的 DataFrame(例如 uuid|url|browser). 我想将其转换为双精度以执行接受双矩阵的 ML 算法. 作为转换方法，我使用 StringIndexer (spark 1.4) 将我的字符串值映射到双精度值，所以我定义了一个这样的函数: def str(arg: String, df:DataFrame) : DataFrame =(val ..

发布时间：2021-11-14 20:57:34 scala apache-spark apache-spark-mllib apache-spark-ml 其他开发

Spark ML VectorAssembler 返回奇怪的输出

我遇到了 VectorAssembler 的一个非常奇怪的行为，我想知道是否有其他人看到过这个. 我的场景非常简单.我从 CSV 文件中解析数据，其中有一些标准的 Int 和 Double 字段，我还计算了一些额外的列.我的解析函数返回: val connected = countPerChannel ++ countPerSource//两个双打数组加入(label, orderNo, ..

发布时间：2021-11-14 20:57:25 scala apache-spark apache-spark-mllib apache-spark-ml 其他开发

apache-spark-ml相关内容