apache-spark-ml 第3页 - IT屋-程序员软件开发技术分享社区

Pyspark 和 PCA:如何提取此 PCA 的特征向量?我如何计算他们解释的差异有多大?

我正在使用带有 pyspark 的 PCA 模型降低 Spark DataFrame 的维度(使用 spark ml库)如下: pca = PCA(k=3, inputCol=“features", outputCol=“pca_features")模型 = pca.fit(数据) 其中 data 是一个 Spark DataFrame，其中一列标记为 features，它是一个 3 维的 D ..

发布时间：2021-11-14 21:28:57 apache-spark apache-spark-sql pyspark pca apache-spark-ml 其他开发

如何将数组(即列表)列转换为 Vector

问题的简短版本！考虑以下代码段(假设 spark 已经设置为某个 SparkSession): from pyspark.sql import Row源数据 = [行(城市=“芝加哥"，温度=[-1.0，-2.0，-3.0])，行(城市=“纽约"，温度=[-7.0，-7.0，-5.0])，]df = spark.createDataFrame(source_data) 请注意，温度字段 ..

发布时间：2021-11-14 21:25:33 python apache-spark pyspark apache-spark-sql apache-spark-ml Python

如何在 Spark SQL 中找到分组向量列的平均值?

我通过调用instances.groupBy(instances.col("property_name"))创建了一个RelationalGroupedDataset: val x = instances.groupBy(instances.col("property_name")) 我如何编写用户定义的聚合函数来执行Statistics.colStats().mean 每组? 谢谢 ..

发布时间：2021-11-14 21:21:58 apache-spark apache-spark-sql aggregate-functions user-defined-functions apache-spark-ml 其他开发

spark.ml StringIndexer 在 fit() 上抛出“Unseen label"

我正在准备一个玩具 spark.ml 示例.Spark 1.6.0 版，运行在 Oracle JDK 1.8.0_65 版、pyspark、ipython notebook 之上. 首先，它几乎与 Spark、ML、StringIndexer:处理看不见的标签.将管道拟合到数据集时抛出异常，而不是转换它.在这里抑制异常可能不是解决方案，因为恐怕在这种情况下数据集会变得非常糟糕. 我的数 ..

发布时间：2021-11-14 21:21:54 apache-spark dataframe pyspark apache-spark-sql apache-spark-ml 其他开发

如何定义自定义聚合函数来对一列向量求和?

我有一个两列的 DataFrame，Int 类型的 ID 和 Vector 类型的 Vec(org.apache.spark.mllib.linalg.Vector). DataFrame 如下所示: ID,Vec1,[0,0,5]1,[4,0,1]1,[1,2,1]2,[7,5,0]2,[3,3,4]3,[0,8,1]3,[0,0,1]3,[7,7,7].... 我想做一个 group ..

发布时间：2021-11-14 21:18:56 scala apache-spark apache-spark-sql aggregate-functions apache-spark-ml 其他开发

访问 Spark 2.0 中的向量列时出现 MatchError

我正在尝试在 JSON 文件上创建 LDA 模型. 使用 JSON 文件创建 spark 上下文: import org.apache.spark.sql.SparkSessionval sparkSession = SparkSession.builder.master("本地").appName("my-spark-app").config("spark.some.config.opt ..

发布时间：2021-11-14 21:18:31 scala apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml 其他开发

从 Spark DataFrame 中删除嵌套列

我有一个带有架构的 DataFrame root|-- 标签:字符串(可为空 = 真)|-- 特征:结构(可为空 = 真)||-- feat1: string (nullable = true)||-- feat2: string (nullable = true)||-- feat3: string (nullable = true) 虽然，我可以使用过滤数据框 val data = ..

发布时间：2021-11-14 21:17:40 scala apache-spark dataframe apache-spark-sql apache-spark-ml 其他开发

如何访问 Spark DataFrame 中 VectorUDT 列的元素?

我有一个数据框 df，其中有一个名为 features 的 VectorUDT 列.如何获取列的元素，比如说第一个元素? 我尝试过以下操作 from pyspark.sql.functions import udffirst_elem_udf = udf(lambda 行:row.values[0])df.select(first_elem_udf(df.features)).show() ..

发布时间：2021-11-14 21:16:59 apache-spark dataframe pyspark apache-spark-sql apache-spark-ml 其他开发

在 PySpark 中编码和组装多个功能

我有一个 Python 类，用于在 Spark 中加载和处理一些数据.在我需要做的各种事情中，我正在生成一个从 Spark 数据帧中的各个列派生的虚拟变量列表.我的问题是我不确定如何正确定义用户定义的函数来完成我需要的功能. 我确实目前有一个方法，当映射到底层数据帧 RDD 时，解决了一半的问题(请记住，这是一个更大的 data_processor 类中的方法): def build_fe ..

发布时间：2021-11-14 21:15:31 python apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml Python

Spark Scala:如何将 Dataframe[vector] 转换为 DataFrame[f1:Double, ..., fn: Double)]

我刚刚使用 Standard Scaler 为 ML 应用程序规范了我的功能.选择缩放特征后，我想将其转换回双精度数据帧，尽管我的向量的长度是任意的.我知道如何使用来针对特定的 3 个功能执行此操作 myDF.map{case Row(v: Vector) =>(v(0), v(1), v(2))}.toDF("f1", "f2", "f3") 但不适用于任意数量的特征.有没有简单的方法可 ..

发布时间：2021-11-14 21:15:28 scala apache-spark apache-spark-sql apache-spark-ml 其他开发

如何将 Vector 拆分成列 - 使用 PySpark

上下文:我有一个 DataFrame 有 2 列:词和向量.其中“vector"的列类型是VectorUDT. 一个例子: word |向量断言|[435,323,324,212...] 我想得到这个: word |v1 |v2 |v3 |v4 |v5 |v6 ......断言|第435话5435|698|356|.... 问题: 如何使用 PySpark 将具有向量的列拆分为 ..

发布时间：2021-11-14 21:13:57 python apache-spark pyspark apache-spark-sql apache-spark-ml Python

在 apache spark ml 中使用 VectorAssembler 的异常

我正在尝试创建一个 vectorAssembler 来创建逻辑回归的输入并使用以下代码: //导入导入 org.apache.spark.ml.feature.VectorAssembler导入 org.apache.spark.mllib.linalg.{Vector, Vectors, VectorUDT}1 val 汇编程序 = new VectorAssembler()2 .setInp ..

发布时间：2021-11-14 21:13:02 apache-spark apache-spark-mllib apache-spark-ml 其他开发

pyspark 添加带有数据框行号的新列字段

嘿，我正在尝试用 Spark 构建一个推荐系统我有一个包含用户电子邮件和电影评级的数据框. df = pd.DataFrame(np.array([["aa@gmail.com",2,3],["aa@gmail.com",5,5],["bb@gmail.com",8,2],["cc@gmail.com",9,3]]), columns=['user','movie','rating']) ..

发布时间：2021-11-14 21:12:56 python apache-spark pyspark apache-spark-mllib apache-spark-ml Python

无法为数据源加载类:Spark ML pyspark/scala 中的 Libsvm

当我尝试使用 "sqlContext.read.format("libsvm").load" 在 pyspark/scala 中导入 libsvm 文件时，出现以下错误 - “无法为数据源加载类:Libsvm." 同时，如果我使用 "MLUtils.loadLibSVMFile" 它工作得很好.我需要同时使用 Spark ML(获取类别概率)和 MLlib 进行评估.附上错误截图. ..

发布时间：2021-11-14 21:12:53 apache-spark pyspark mapr apache-spark-mllib apache-spark-ml 其他开发

PySpark 中是否有与 scikit-learn 的 sample_weight 等效的参数?

我目前正在使用 scikit-learn 库提供的 SGDClassifier.当我使用 fit 方法时，我可以设置 sample_weight 参数: 应用于单个样本的权重.如果没有提供，统一假设权重.这些权重将乘以class_weight(通过构造函数传递)如果 class_weight 是指定我想切换到 PySpark 并使用 LogisticRegression 类.无论如何 ..

发布时间：2021-11-14 21:11:48 python scikit-learn pyspark apache-spark-mllib apache-spark-ml Python

PySpark 中是否有与 scikit-learn 的 sample_weight 等效的参数?

我目前正在使用 scikit-learn 库提供的 SGDClassifier.当我使用 fit 方法时，我可以设置 sample_weight 参数: 应用于单个样本的权重.如果没有提供，统一假设权重.这些权重将乘以class_weight(通过构造函数传递)如果 class_weight 是指定我想切换到 PySpark 并使用 LogisticRegression 类.无论如何 ..

发布时间：2021-11-14 21:11:45 python scikit-learn pyspark apache-spark-mllib apache-spark-ml Python

Spark ML Kmeans 给出:org.apache.spark.SparkException:无法执行用户定义的函数($anonfun$2: (vector) => int)

我尝试加载 KmeansModel，然后从中取出标签: 这是我写的代码: val kMeansModel = KMeansModel.load(trainedMlModel.mlModelFilePath)val arrayOfElements = measurePoint.measurements.map(a => a._2).toSeqprintln(s"ArrayOfELement ..

发布时间：2021-11-14 21:11:29 apache-spark apache-spark-sql k-means apache-spark-mllib apache-spark-ml 其他开发

Apache Spark 中的 Jaro-Winkler 分数计算

我们需要在 Apache Spark Dataset 中实现跨字符串的 Jaro-Winkler 距离计算.我们是 Spark 的新手，在网上搜索后我们找不到太多东西.如果您能指导我们，那就太好了.我们想过使用 flatMap 然后意识到它无济于事，然后我们尝试使用几个 foreach 循环但无法弄清楚如何继续.因为每个字符串都必须与所有字符串进行比较.就像下面的数据集一样. RowFactor ..

发布时间：2021-11-14 21:11:25 apache-spark apache-spark-mllib apache-spark-ml apache-spark-2.0 apache-spark-dataset 其他开发

文本分类 - 如何处理

我会尽量描述我的想法. MS SQL 数据库中存储了文本内容.内容每天都以流的形式出现.有些人每天都会浏览内容，如果内容符合某些标准，则将其标记为已验证.只有一个类别.它要么“有效"，要么无效. 我想要的是基于已经验证的内容创建一个模型，保存它并使用这个模型来“预验证"或标记新的传入内容.也偶尔根据新验证的内容更新模型.希望我解释清楚了. 我正在考虑根据创建的模型使用 Spark ..

发布时间：2021-11-14 21:11:19 apache-spark machine-learning apache-spark-mllib apache-spark-ml AI人工智能

如何为 setInputCol() 提供多列

我对 Spark 机器学习非常陌生，我想将多个列传递给功能，在下面的代码中，我只将日期列传递给功能，但现在我想将用户 ID 和日期列传递给功能.我尝试使用 Vector，但它只支持 Double 数据类型，但在我的情况下，我有 Int 和 String 如果有人提供任何建议/解决方案或任何代码示例来满足我的要求，我将不胜感激代码: case class LabeledDocume ..

发布时间：2021-11-14 21:11:13 scala apache-spark apache-spark-mllib prediction apache-spark-ml 其他开发

apache-spark-ml相关内容