cross-validation相关内容

使用带有CROSS_VAL_SCORE的自定义估计器失败

我正在尝试使用cross_val_score和自定义估计器。重要的是,此估计器接收一个成员变量,该变量稍后可在fit函数中使用。但似乎在cross_val_score内部,成员变量被销毁(或者正在创建估计器的新实例)。 以下是可以重现错误的最小代码: from sklearn.model_selection import cross_val_score from sklearn.base i ..
发布时间:2022-09-06 11:29:41 Python

Lightgbm python数据集引用参数是什么意思?

我正在尝试找出如何用python中的lightgbm来训练gbdt分类器,但与the official website中提供的示例混淆了。 按照列出的步骤,我发现VALIDATION_DATA不知从何而来,并且不知道VALID_DATA的格式,也不知道使用或不使用它的训练模型的优点或用处。 随之而来的另一个问题是,在文档中,有一句话是说“验证数据应该与训练数据对齐”,当我查看数据集的细节时,我发现 ..
发布时间:2022-09-06 11:17:50 AI人工智能

具有n次交叉验证的精度召回曲线显示标准偏差

我希望生成具有5倍交叉验证的精度-召回曲线,以显示example ROC curve code here中的标准偏差。 下面的代码(改编自How to Plot PR-Curve Over 10 folds of Cross Validation in Scikit-Learn)给出了每一次交叉验证的PR曲线以及平均PR曲线。我还想用灰色显示平均PR曲线上下一个标准差的区域。但它显示以下错误(代 ..

Caret:组合分层的createMultiFold(重复CV)和groupKFold

我的问题与中提出的问题非常相似 caret: combine createResample and groupKFold 唯一的区别是:我需要在分组后创建分层折叠(也重复10次),而不是引导重采样(据我所知它不是分层的),以便与插入的Train Control一起使用。 下面的代码使用10倍重复的简历,但我不能包括基于“ID”(df$ID)的数据分组。 # creating indices ..
发布时间:2022-09-06 11:04:41 其他开发

如何按索引定制skLearning交叉验证迭代器?

与Custom cross validation split sklearn类似,我想为GridSearchCV定义我自己的拆分,我需要为它定制内置的交叉验证迭代器。 我希望将用于交叉验证的我自己的训练测试索引集传递给GridSearch,而不是让迭代器为我确定它们。我翻遍了skLearning文档页面上可用的简历迭代器,但没有找到。 例如,我想要实现如下内容 数据有9个样本 对于2份简历 ..
发布时间:2022-09-06 10:28:54 Python

SCRKIT-学习Logistic回归简历:最佳系数

我试图了解在Logistic回归交叉验证中如何计算最佳系数,其中“refit”参数为True。 如果我对docs的理解是正确的,那么最好的系数是首先确定最佳正则化参数“C”的结果,即在所有折叠上具有最高平均分数的C值。然后,最好的系数就是在最佳C得分最高的折叠上计算的系数。我假设,如果最大分数被几个折叠获得,则这些折叠的系数将被平均,以得到最佳系数(我在文档中没有看到任何关于如何处理这种情况的内容 ..

支持向量机-数据是否有可指示最佳参数的属性(例如,C、伽马)

使用交叉验证来确定最佳参数似乎相当标准。当然,这通常是一个耗时的过程。有什么捷径吗?有没有其他更快的探索性分析形式,可以提供关于哪些值将是最佳的提示? 例如,以我目前对机器学习和支持向量机的理解,我可能会做一些事情,比如在C的指数为10的[10e-5,10e5]范围内执行初始网格搜索,然后从那里进行微调。但有没有一种方法可以让我快速估计出最佳的C在10e3和10e5之间,然后执行更具体的搜索? ..
发布时间:2022-07-12 18:58:44 AI人工智能

如何在 sklearn 中实现前向测试?

在 sklearn 中,GridSearchCV 可以将管道作为参数,通过交叉验证找到最佳估计器.然而,通常的交叉验证是这样的: 为了交叉验证时间序列数据,训练和测试数据通常是这样拆分的: 也就是说,测试数据应该总是领先于训练数据. 我的想法是: 编写我自己的k-fold版本类并将其传递给GridSearchCV,这样我就可以享受管道的便利.问题是让 GridSearchC ..
发布时间:2022-01-11 10:04:36 Python

如何在 R 包 XGBoost 中为 xgb.cv 指定训练和测试索引

我最近发现了 xgb.cv 中的 folds 参数,它允许指定验证集的索引.然后在 xgb.cv 中调用辅助函数 xgb.cv.mknfold,然后将每个折叠的剩余索引作为相应训练集的索引折叠. 问题:我可以通过 xgboost 接口中的任何接口同时指定训练和验证索引吗? 我的主要动机是执行时间序列交叉验证,我不希望将“非验证"索引自动分配为训练数据.一个例子来说明我想要做什么: # ..
发布时间:2022-01-11 09:45:16 其他开发

使用带有管道和 GridSearch 的 cross_val_score 拟合嵌套交叉验证

我在 scikit 工作,我正在尝试调整我的 XGBoost.我尝试使用管道进行嵌套交叉验证来重新缩放训练折叠(以避免数据泄漏和过度拟合),并与 GridSearchCV 并行进行参数调整和 cross_val_score 以最终获得 roc_auc 分数. from imblearn.pipeline import Pipeline从 sklearn.model_selection 导入 Re ..

在 MATLAB 中使用神经网络分类进行 10 折交叉验证的示例

我正在寻找一个在神经网络中应用 10 倍交叉验证的例子.我需要这个问题的链接答案:MATLAB中10-fold SVM分类示例 我想对所有 3 个类进行分类,而在示例中只考虑了两个类. 编辑:这是我为 iris 示例编写的代码 load fisheriris %# 加载鸢尾花数据集k=10;cvFolds = crossvalind('Kfold', 物种, k);%# 获取 10 ..

使用带有插入符号训练的神经网络并调整参数

所以我读过一篇论文,该论文使用神经网络对一个数据集进行建模,该数据集与我目前使用的数据集相似.我有 160 个描述符变量,我想为 160 个案例建模(回归建模).我阅读的论文使用了以下参数:- '对于每个分割,都为 10 个单独的训练测试折叠中的每一个开发了一个模型.具有 33 个输入神经元和 16 个隐藏神经元的三层反向传播网络用于在线权重更新、0.25 学习率和 0.9 动量.对于每个折 ..
发布时间:2021-12-31 17:00:22 其他开发