apache-spark-mllib相关内容

为什么 ALS.trainImplicit 可以为显式评分提供更好的预测?

编辑:我尝试了一个独立的 Spark 应用程序(而不是 PredictionIO),我的观察结果是一样的.所以这不是 PredictionIO 问题,但仍然令人困惑. 我正在使用 PredictionIO 0.9.6 和 Recommendation 模板协同过滤.我的数据集中的评分是 1 到 10 之间的数字.当我第一次使用模板中的默认值训练模型时(使用 ALS.train),预测很糟糕, ..

带有 DataFrame API 的 Apache Spark MLlib 在 createDataFrame() 或 read().csv(...) 时给出 java.net.URISyntaxException

在独立应用程序中(在 java8、Windows 10 上运行,使用 spark-xxx_2.11:2.0.0 作为 jar 依赖项)下一个代码给出错误: /* 这个:*/数据集logData = spark_session.createDataFrame(Arrays.asList(new LabeledPoint(1.0, Vectors.dense(4.9,3,1.4,0.2)),new ..

如何在 pyspark 的 LogisticRegressionWithLBFGS 中打印预测概率

我使用的是 Spark 1.5.1 并且,在pyspark中,在我使用以下方法拟合模型后: model = LogisticRegressionWithLBFGS.train(parsedData) 我可以使用以下方法打印预测: model.predict(p.features) 是否有同时打印概率分数和预测的函数? 解决方案 你必须首先清除阈值,这仅适用于二进制分类: fro ..

ChiSqSelector - 真实功能 - Spark

我正在使用 Spark 1.6 构建一个 NB 模型,并使用 ChiSqSelector 来识别主要特征.我总共有 7 个特征并寻找前 3 个特征.虽然过程运行良好,但我将如何识别被评为顶级特征的实际特征.由于数据已分类,我无法将输出映射到实际输入列. val chidata = cat_recs.map(r => (r.getDouble(targetInd), Vectors.dense(f ..
发布时间:2021-11-14 21:07:54 其他开发

应用 pyspark ALS 的“recommendProductsForUsers"时出现 StackOverflow 错误;(尽管可用集群> 300GB Ram)

寻求专业知识来指导我解决以下问题. 背景: 我正在尝试使用受 这个例子 作为部署基础架构,我使用 Google Cloud Dataproc 集群. 我的代码中的基石是记录了“recommendProductsForUsers"功能here 返回模型中所有用户的前 X 个产品 我遇到的问题 ALS.Train 脚本在 GCP 上运行流畅且扩展性良好(轻松超过 100 万 ..

在 Spark 中将列标记为分类

我目前正在使用 StringIndexer 将许多列转换为唯一的整数,以便在 RandomForestModel 中进行分类.我也在为 ML 过程使用管道. 有些查询是 RandomForestModel 如何知道哪些列是分类的.StringIndexer 将非数字转换为数字,但它是否添加了某种元数据以表明它是一个分类列?在 mllib.tree.RF 中,有参数调用 categori ..

将稀疏特征向量分解为单独的列

在我的 spark DataFrame 中,有一列包含 CountVectoriser 转换的输出 - 它采用稀疏矢量格式.我想要做的是再次将这一列“分解"成一个密集的向量,然后它是组成行(这样它就可以被外部模型用于评分). 我知道该列中有 40 个功能,因此遵循 这个例子,我试过: import org.apache.spark.sql.functions.udf导入 org.apach ..

MLlib:计算多个阈值的精度和召回率

在将逻辑回归的阈值用于评分之前,我将其设置为 0.5.我现在想获得该值的精度、召回率和 f1 分数.不幸的是,当我尝试这样做时,我看到的唯一阈值是 1.0 和 0.0.如何获取除 0 和 1 以外的阈值的指标. 例如这里是 o/p: 阈值为:1.0,精度为:0.85 阈值为:0.0,精度为:0.312641 我没有得到阈值 0.5 的精度.这是相关的代码. //我在这 ..
发布时间:2021-11-14 21:07:33 其他开发

如何使用 CrossValidator 在不同模型之间进行选择

我知道我可以使用 CrossValidator 调整单个模型.但是,相互评估不同模型的建议方法是什么?例如,假设我想评估一个 LogisticRegression 分类器针对 LinearSVC 分类器使用 CrossValidator. 解决方案 在熟悉了 API 之后,我通过实现一个自定义的 Estimator 包装两个或多个它可以委派给的估算器,其中选定的估算器由单个 Param[I ..

在 spark 中为 LDA 准备数据

我正在努力实现 Spark LDA 模型(通过 Scala API),但在为我的数据执行必要的格式化步骤时遇到了问题.我的原始数据(存储在文本文件中)采用以下格式,本质上是令牌列表及其对应的文档.一个简化的例子: doc XXXXX 术语 XXXXX1 x 'a' x1 x 'a' x1 x 'b' x2 x 'b' x2 x 'd' x... XXXXX 列是我不关心的垃圾数据.我意识到这是 ..
发布时间:2021-11-14 21:07:17 其他开发