logistic-regression相关内容

Spark MLlib中DataFrame的“rawPrediction"和“probability"列是什么意思?

在我训练了一个 LogisticRegressionModel 之后,我用它转换了测试数据 DF 并得到了预测 DF.然后当我调用 prediction.show() 时,输出列名称为:[label |特点 |原始预测 |概率|预测].我知道label 和featrues 是什么意思,但我应该如何理解rawPrediction|probability|prediction? 解决方案 注意 ..

使用 Spark LogisticRegressionWithLBFGS 进行多类分类的预测概率

我正在使用 LogisticRegressionWithLBFGS() 来训练具有多个类别的模型. 从mllib 中的文档中可以看出,clearThreshold() 仅在分类为二进制时才能使用.有没有办法在多类分类中使用类似的东西,以便在模型的给定输入中输出每个类的概率? 解决方案 有两种方法可以实现这一点.一种是在LogisticRegression.scala object ..

在 Spark 中使用逻辑回归计算估计值、Wald-Chi 平方统计量、p 值的标准误差

我试图在样本数据上建立逻辑回归模型. 我们可以得到的模型输出是用于构建模型的特征的权重. 我找不到用于估计标准误差、Wald-Chi Square 统计量、p 值等的 Spark API. 我在下面粘贴我的代码作为示例 import org.apache.spark.mllib.classification.LogisticRegressionWithLBFGS导入 org.a ..

如何在 pyspark 的 LogisticRegressionWithLBFGS 中打印预测概率

我使用的是 Spark 1.5.1 并且,在pyspark中,在我使用以下方法拟合模型后: model = LogisticRegressionWithLBFGS.train(parsedData) 我可以使用以下方法打印预测: model.predict(p.features) 是否有同时打印概率分数和预测的函数? 解决方案 你必须首先清除阈值,这仅适用于二进制分类: fro ..

在 Spark 中计算 Logistic 回归系数的标准误差

我知道之前有人问过这个问题这里.但我找不到正确的答案.上一篇文章中提供的答案建议使用 Statistics.chiSqTest(data) 提供拟合优度检验(Pearson 卡方检验),而不是用于系数显着性的 Wald 卡方检验. 我试图在 Spark 中构建逻辑回归的参数估计表.我能够获得系数和截距,但我找不到火花 API 来获得系数的标准误差.我看到系数标准误差在作为模型摘要的一部分的线 ..

使用 PySpark 进行多类分类的逻辑回归问题

我正在尝试使用 Logistic Regression 对特征向量中具有 稀疏向量 的数据集进行分类: 关于完整的代码库和错误日志,请查看我的github repo 案例 1:我尝试使用 ML 的管道如下: # 从 ML 导入的库从 pyspark.ml.feature 导入 HashingTF从 pyspark.ml 导入管道从 pyspark.ml.classification ..

如何在 spark.mllib 中的分类模型中获得每个实例的概率

我使用 spark.mllib.classification.{LogisticRegressionModel, LogisticRegressionWithSGD} 和 spark.mllib.tree.RandomForest 进行分类.使用这些包,我生成了分类模型.只有这些模型可以预测每个实例的特定类.在 Weka 中,我们可以获得每个实例属于每个类的准确概率.我们如何使用这些包来做到这一点 ..

scikit learn:如何检查系数的重要性

我尝试使用 SKLearn 对一个相当大的数据集进行 LR,该数据集具有约 600 个虚拟变量且只有很少的区间变量(以及我的数据集中的 300 K 行),结果混淆矩阵看起来很可疑.我想检查返回的系数和方差分析的重要性,但我找不到如何访问它.有可能吗?对于包含大量虚拟变量的数据,最佳策略是什么?非常感谢! 解决方案 Scikit-learn 故意不支持统计推断.如果您想要开箱即用的系数显着性 ..
发布时间:2021-11-10 23:42:06 其他开发

StatsModels 的预测函数如何与 scikit-learn 的 roc_auc_score 交互?

我正在尝试了解 Logit 模型的 Python statsmodels 中的 predict 函数.它的文档位于此处. 当我构建 Logit 模型并使用 predict 时,它返回从 0 到 1 的值,而不是 0 或 1.现在我读到这篇文章说这些是概率,我们需要一个阈值.Python statsmodel.api 逻辑回归 (Logit) 现在,我想生成 AUC 数字,我使用 skl ..

逻辑回归python求解器的定义

我正在使用 sklearn 的逻辑回归函数,并想知道每个求解器实际上在幕后做什么来解决优化问题. 谁能简要描述一下什么是“newton-cg"、“sag"、“lbfgs"?和“liblinear"在做什么? 解决方案 好吧,我希望我参加聚会还不算太晚!在挖掘大量信息之前,让我先尝试建立一些直觉(警告:这不是简单的比较) 简介 一个假设h(x),接受一个输入并给我们估计的输 ..
发布时间:2021-06-28 19:21:57 Python

partial_fit 与 SGDClassifier 给出了波动的准确度

我的数据在一个稀疏矩阵中.在开始大计算之前,我现在首先处理具有约 500k 行的子集.数据是二元数加上熵和字符串长度,完整的数据集包含数百万行乘以 1400 列.该模型旨在帮助表征这些字符串,因此我使用 SGDClassifier 进行逻辑回归. 由于尺寸较大,我决定在我的 SGDClassifier 上使用 partial_fit,但是我得到的计算出的 area-under-curve 值 ..
发布时间:2021-06-14 19:44:52 Python

具有权重约束的逻辑回归(非自然,降序)

在一次采访中,我被问到是否有权重约束的逻辑回归,例如 1.weights均为非负和 2.weights保持降序全局最优,我知道没有约束它可以达到全局最优,在非消极约束下,我认为通过使用带kkt条件的lagrange乘数可以管理局部最优,但是有一种方法可以使用某种方法在递减的情况下获得局部最优重量? ..

Sklearn Logistic回归-调整临界点

我有一个逻辑回归模型试图预测A或B这两个类别之一. 我的模型在预测A时的准确度约为85%. 预测B时模型的准确度约为50%. 对B的预测并不重要,但是对A的预测非常重要. 我的目标是在预测A时最大程度地提高准确性.确定班级时,是否有任何方法可以调整默认决策阈值? 分类器= LogisticRegression(惩罚='l2',求解器='saga',multi_class ='ov ..
发布时间:2021-05-30 20:56:08 其他开发

从R的Logistic回归解释系数

全部 我对一组分类变量和连续变量进行了逻辑回归,并以二进制事件作为因变量. 现在,在建模之后,我观察到一组显示负号的分类变量,我认为这是为了理解,如果该分类变量出现的次数很高,那么因变量出现的可能性就很低. 但是,当我看到该独立变量的发生百分比时,我看到了反向趋势的发生.因此结果似乎是反直觉的.发生这种情况的任何原因.我尝试在下面用一个伪示例进行解释. 因变量-E预测变量: ..
发布时间:2021-05-30 20:56:00 其他开发

Scipy fmin_tnc未优化成本函数

目标:是使用scipy fmin_tnc优化器优化成本函数. 问题:尽管成本和梯度函数在单独执行时的行为符合预期,但在通过fmin_tnc优化时,它们具有相同的初始参数-返回零数组. 请参见下面的代码: def sigmoid(z_vec):返回1/(1 + np.exp(-z_vec))def假设(X_vec,weights_vec):_hypothesis = np.vecto ..
发布时间:2021-05-30 20:55:58 Python