logistic-regression相关内容

如何使用Spark正确获取合成数据集的权重?

我正在针对综合数据集在Spark上执行LogisticRegressionWithSGD.我已经使用香草梯度下降法在Matlab上计算了误差,R值为5%.我得到了用于生成y的模型中使用的相似权重.数据集是使用此示例生成的. 尽管我最终可以通过不同的步长调整获得非常接近的错误率,但是各个功能的权重并不相同.实际上,它变化很大.我尝试了LBFGS来产生火花,它能够在几次迭代中正确预测误差和重量. ..

为什么对于多个模型,我获得了较高的准确性,但ROC AUC却很低?

我的数据集大小为42542 x 14,我正在尝试构建不同的模型,例如逻辑回归,KNN,RF,决策树,并比较精度. 对于每种型号,我得到的都是高精度,但ROC AUC却很低. 数据包含约85%的目标变量= 1的样本和15%的目标变量0的样本.我尝试采集样本以解决这种不平衡问题,但仍然得出相同的结果. glm的系数如下: glm(formula = loan_status ~ ..
发布时间:2020-05-04 03:22:08 其他开发

预言.glmnet:某些因素在新数据中仅具有一个层次

我已经使用glmnet在R中训练了一个弹性网络模型,并希望使用它来根据新数据集进行预测. 但是我在生成矩阵以用作predict()方法中的参数时遇到了麻烦,因为在新数据集中我的某些因子变量(指示合并症的虚拟变量)只有一个级别(合并症)从未被观察到),这意味着我无法使用 model.matrix(RESPONSE〜.,new_data) 因为它给了我(期望的) contras ..
发布时间:2020-05-04 03:21:54 其他开发

如何建模R中自变量之间的所有关系?

我有一个小型数据集,其中包含4个独立变量(分别称为a,b,c,d)和1个因变量.由于自变量很少,因此我想探索这些变量的所有组合.只能有14个模型(a,b,c,d,a + b,a + c,a + d,b + c,b + d,c + d,a + b + c,a + b + d ,b + c + d,a + b + c + d). 我手动建立所有模型,这很耗时.因此,我想使其自动化. R中有可能吗? ..
发布时间:2020-05-04 03:21:50 其他开发

有序logit R polr的聚类标准错误-估计中删除的值

我对R相当陌生,并且习惯了非常基本的应用程序. 现在我遇到了需要帮助的问题: 我正在寻找一种有序逻辑回归的集群标准错误(我的估算类似于我已经尝试过 robcov 和 vcovCL ,它们给了我类似的错误消息: meatCL(x,cluster = cluster,type = type,...)中的错误:数量 'cluster'和'estfun()'中的观测值不匹配 u [,ii]中 ..
发布时间:2020-05-04 03:21:42 其他开发

逻辑回归模型原始预测字段背后的pyspark 2.2.0概念

我试图理解Pyspark中从逻辑回归模型生成的输出的概念. 任何人都可以解释由逻辑回归模型生成的rawPrediction字段计算背后的概念吗? 谢谢. 解决方案 在旧版本的Spark中 “原始"预测的含义在算法之间可能会有所不同,但是它直观地给出了对每个可能标签的置信度的度量(其中较大=更可信). 它在以后的版本中不存在,但是您仍然可以在Scala中找到它无论如何,除了不幸 ..

是使用Logistic回归进行情感分析时获得肯定或否定程度的一种方法

我一直在跟踪有关使用Logistic回归进行情感分析的示例,其中预测结果仅给出1或0分别给出正面或负面的情绪. 我的挑战是我想将给定的用户输入分类为四个类别(非常好,好,平均,差)之一,但是我的预测结果每次都是1或0. 下面是到目前为止我的代码示例 from sklearn.feature_extraction.text import CountVectorizer from v ..

循环将对所有自变量运行Logistic回归,并显示AUC和

我想使用所有可用变量运行逻辑回归的因变量(在我的数据集中为dat$admit),每个回归均具有其自己的自变量与因变量.我想得到的结果是每个回归摘要的列表:coeff,p-value,AUC.使用下面提交的数据集,应该进行3个回归. 这是一个示例数据集(其中admit是逻辑回归因变量): >dat ..
发布时间:2020-05-04 03:21:27 其他开发