apache-spark-ml相关内容

spark.ml StringIndexer 在 fit() 上抛出“Unseen label"

我正在准备一个玩具 spark.ml 示例.Spark 1.6.0 版,运行在 Oracle JDK 1.8.0_65 版、pyspark、ipython notebook 之上. 首先,它几乎与 Spark、ML、StringIndexer:处理看不见的标签.将管道拟合到数据集时抛出异常,而不是转换它.在这里抑制异常可能不是解决方案,因为恐怕在这种情况下数据集会变得非常糟糕. 我的数 ..

在 PySpark 中编码和组装多个功能

我有一个 Python 类,用于在 Spark 中加载和处理一些数据.在我需要做的各种事情中,我正在生成一个从 Spark 数据帧中的各个列派生的虚拟变量列表.我的问题是我不确定如何正确定义用户定义的函数来完成我需要的功能. 我确实目前有一个方法,当映射到底层数据帧 RDD 时,解决了一半的问题(请记住,这是一个更大的 data_processor 类中的方法): def build_fe ..

Spark Scala:如何将 Dataframe[vector] 转换为 DataFrame[f1:Double, ..., fn: Double)]

我刚刚使用 Standard Scaler 为 ML 应用程序规范了我的功能.选择缩放特征后,我想将其转换回双精度数据帧,尽管我的向量的长度是任意的.我知道如何使用 来针对特定的 3 个功能执行此操作 myDF.map{case Row(v: Vector) =>(v(0), v(1), v(2))}.toDF("f1", "f2", "f3") 但不适用于任意数量的特征.有没有简单的方法可 ..
发布时间:2021-11-14 21:15:28 其他开发

无法为数据源加载类:Spark ML pyspark/scala 中的 Libsvm

当我尝试使用 "sqlContext.read.format("libsvm").load" 在 pyspark/scala 中导入 libsvm 文件时,出现以下错误 - “无法为数据源加载类:Libsvm." 同时,如果我使用 "MLUtils.loadLibSVMFile" 它工作得很好.我需要同时使用 Spark ML(获取类别概率)和 MLlib 进行评估.附上错误截图. ..

PySpark 中是否有与 scikit-learn 的 sample_weight 等效的参数?

我目前正在使用 scikit-learn 库提供的 SGDClassifier.当我使用 fit 方法时,我可以设置 sample_weight 参数: 应用于单个样本的权重.如果没有提供,统一假设权重.这些权重将乘以class_weight(通过构造函数传递)如果 class_weight 是指定 我想切换到 PySpark 并使用 LogisticRegression 类.无论如何 ..

PySpark 中是否有与 scikit-learn 的 sample_weight 等效的参数?

我目前正在使用 scikit-learn 库提供的 SGDClassifier.当我使用 fit 方法时,我可以设置 sample_weight 参数: 应用于单个样本的权重.如果没有提供,统一假设权重.这些权重将乘以class_weight(通过构造函数传递)如果 class_weight 是指定 我想切换到 PySpark 并使用 LogisticRegression 类.无论如何 ..

Apache Spark 中的 Jaro-Winkler 分数计算

我们需要在 Apache Spark Dataset 中实现跨字符串的 Jaro-Winkler 距离计算.我们是 Spark 的新手,在网上搜索后我们找不到太多东西.如果您能指导我们,那就太好了.我们想过使用 flatMap 然后意识到它无济于事,然后我们尝试使用几个 foreach 循环但无法弄清楚如何继续.因为每个字符串都必须与所有字符串进行比较.就像下面的数据集一样. RowFactor ..

文本分类 - 如何处理

我会尽量描述我的想法. MS SQL 数据库中存储了文本内容.内容每天都以流的形式出现.有些人每天都会浏览内容,如果内容符合某些标准,则将其标记为已验证.只有一个类别.它要么“有效",要么无效. 我想要的是基于已经验证的内容创建一个模型,保存它并使用这个模型来“预验证"或标记新的传入内容.也偶尔根据新验证的内容更新模型.希望我解释清楚了. 我正在考虑根据创建的模型使用 Spark ..

如何为 setInputCol() 提供多列

我对 Spark 机器学习非常陌生,我想将多个列传递给功能,在下面的代码中,我只将日期列传递给功能,但现在我想将用户 ID 和日期列传递给功能.我尝试使用 Vector,但它只支持 Double 数据类型,但在我的情况下,我有 Int 和 String 如果有人提供任何建议/解决方案或任何代码示例来满足我的要求,我将不胜感激 代码: case class LabeledDocume ..