logistic-regression相关内容
非常感谢您对此的意见! 我正在研究逻辑回归,但由于某种原因它不起作用: mod1 当我用更少的数据运行相同的模型时,它就起作用了!但是对于完整的数据集,我收到一条错误和警告消息: 错误:内循环1;无法修正步长此外: 警告消息:1:由于发散而截断步长2:由于发散而截断步长 这是数据:https://www.dropbox.com/s/8ib8m1fh176556h/NSSH1.csv?
..
我用50000 X 370维的数据对一个二元分类问题进行了Logistic回归.我得到了大约90%的准确率.但是当我对数据做PCA+logistic时,我的准确率下降到了10%,我很震惊看到这个结果.谁能解释一下可能出了什么问题? 解决方案 不能保证 PCA 会帮助或损害学习过程.特别是 - 如果您使用 PCA 来减少维度数量 - 您正在从数据中删除信息,因此一切都可能发生 - 如果删除的
..
使用 imdb 电影评论数据集,我进行了逻辑回归来预测评论的情绪. tfidf = TfidfVectorizer(strip_accents=None, lowercase=False, preprocessor=None,tokenizer=fill, use_idf=True, norm='l2', smooth_idf=True)y = df.sentiment.valuesX = tf
..
我正在尝试使用深度神经网络架构对二进制标签值进行分类 - 0 和 +1.这是我在 tensorflow 中执行此操作的代码.这个问题也继承自 上一个问题 将 tensorflow 导入为 tf将 numpy 导入为 np从预处理导入 create_feature_sets_and_labelstrain_x,train_y,test_x,test_y = create_feature_sets
..
我正在尝试使用深度神经网络架构对二进制标签值进行分类 - -1 和 +1.这是我在 tensorflow 中执行此操作的代码. 将 tensorflow 导入为 tf将 numpy 导入为 np从预处理导入 create_feature_sets_and_labelstrain_x,train_y,test_x,test_y = create_feature_sets_and_labels()
..
我想使用交叉验证来测试/训练我的数据集并评估逻辑回归模型在整个数据集上的性能,而不仅仅是在测试集上(例如 25%). 这些概念对我来说是全新的,我不太确定我是否做得对.如果有人能就我出错的地方采取正确的步骤向我提出建议,我将不胜感激.我的部分代码如下所示. 此外,如何在当前图形的同一图形上绘制“y2"和“y3"的 ROC? 谢谢 将pandas导入为pdData=pd.read
..
我有一个由数字和分类数据组成的数据集,我想根据患者的医疗特征预测其不良结果.我为我的数据集定义了一个预测管道,如下所示: X = dataset.drop(columns=['target'])y = 数据集['目标']# 定义分类和数字转换器numeric_transformer = 流水线(步骤=[('knnImputer', KNNImputer(n_neighbors=2, weight
..
我正在尝试对 twitter 数据集“Sentiment140"进行情感分析,该数据集包含 160 万条带标签的推文.我正在使用 Bag Of Words (Unigram) 模型构建我的特征向量,因此每条推文由大约 20000 个特征表示.现在要使用此数据集训练我的 sklearn 模型(SVM、逻辑回归、朴素贝叶斯),我必须将整个 1.6m x 20000 特征向量加载到一个变量中,然后将其提
..
我目前正在尝试使用逻辑回归创建二元分类.目前我正在确定特征重要性.我已经进行了数据预处理(一次热编码和采样)并使用 XGBoost 和 RandomFOrestClassifier 运行它,没问题 但是,当我尝试拟合 LogisticRegression 模型时(以下是我在 Notebook 中的代码), from sklearn.linear_model import LogisticR
..
我在 R、python statmodels 和 sklearn 中做了一些逻辑回归实验.虽然 R 和 statmodels 给出的结果一致,但与 sklearn 返回的结果存在一些差异.我想了解为什么这些结果不同.据我所知,这可能与木头下使用的优化算法不同. 具体来说,我使用标准的Default 数据集(在ISL 书籍中使用一>).以下 Python 代码将数据读入数据帧 Default.
..
我想通过交叉验证来预测逻辑回归模型的概率.我知道您可以获得交叉验证分数,但是否可以从 predict_proba 返回值而不是分数? # 导入从 sklearn.linear_model 导入 LogisticRegression从 sklearn.cross_validation 导入(StratifiedKFold、cross_val_score、train_test_split)从 skl
..
我尝试运行以下代码.顺便说一句,我是 python 和 sklearn 的新手. 将pandas导入为pd将 numpy 导入为 np从 sklearn.linear_model 导入 LogisticRegression# 数据导入和准备trainData = pd.read_csv('train.csv')火车 = trainData.valuestestData = pd.read_csv
..
我尝试解决本笔记本中的这个问题 6.问题是使用 sklearn.linear_model 中的 LogisticRegression 模型,使用 50、100、1000 和 5000 个训练样本在这些数据上训练一个简单的模型. lr = LogisticRegression()lr.fit(train_dataset,train_labels) 这是我尝试执行的代码,但它给了我错误. V
..
我正在使用 sklearn.linear_model.LogisticRegression 在 scikit learn 中运行逻辑回归. C : float, optional (default=1.0) 正则化强度的倒数;必须是一个正浮点数.就像在支持向量机中一样,较小的值指定更强的正则化. C 在这里简单来说是什么意思?什么是正则化强度? 解决方案 正则化 正在对增加参数值的大小
..
我在高度不平衡的数据集上使用 scikit-learn 中的 LogisticRegression() 方法.我什至将 class_weight 功能变成了 auto. 我知道在逻辑回归中应该可以知道特定类别对的阈值是多少. 是否可以知道 LogisticRegression() 方法设计的每个 One-vs-All 类中的阈值是多少? 我在文档页面中没有找到任何内容. 它
..
我有一个通过逻辑回归算法训练的二元预测模型.我想知道哪些特征(预测器)对于正类或负类的决定更重要.我知道有 coef_ 参数来自 scikit-learn 包,但我不知道它是否足够重要.另一件事是我如何根据负类和正类的重要性来评估 coef_ 值.我还阅读了标准化回归系数,但我不知道它是什么. 假设有一些特征,如肿瘤的大小、肿瘤的重量等,可以决定一个测试用例是恶性还是非恶性.我想知道哪些特征
..
在 航班延误数据集. 我使用 pandas 来选择一些列: df = df[["MONTH", "DAY_OF_MONTH", "DAY_OF_WEEK", "ORIGIN", "DEST", "CRS_DEP_TIME", "ARR_DEL15"]] 我用 0 填充 NaN 值: df = df.fillna({'ARR_DEL15': 0}) 确保分类列标有“类别"数据类型:
..
分类问题,例如逻辑回归或多项式逻辑回归,优化交叉熵损失.通常,交叉熵层跟在softmax层之后,产生概率分布. 在tensorflow中,至少有十几种不同的交叉熵损失函数: tf.losses.softmax_cross_entropy tf.losses.sparse_softmax_cross_entropy tf.losses.sigmoid_cross_entropy t
..
我正在使用批量梯度下降实现逻辑回归.有两类输入样本将被分类.类是 1 和 0.在训练数据时,我使用了以下 sigmoid 函数: t = 1 ./(1 + exp(-z)); 哪里 z = x*theta 我正在使用以下成本函数来计算成本,以确定何时停止训练. function cost = computeCost(x, y, theta)htheta = sigmoid(x*theta
..
我最近需要在一些数据集上组合两个或多个变量来评估它们的组合是否可以增强预测性,因此我在 R 中做了一些逻辑回归.现在,在统计问答中,有人建议我可以使用线性判别分析. 由于我在 MATLAB 中没有任何 fitcdiscr.m,我宁愿在 R 中使用 lda,但我不能使用拟合结果来预测 AUC 或我可以使用的任何东西.确实,我看到 R 中 lda 的拟合输出向量是某种具有多个类的向量,我想我应该
..