cross-validation相关内容
我正在尝试构建用于进行交叉验证的测试和培训组。我总共有95个个人ID,并尝试按如下方式完成任务: # create 95 unique IDs as individuals set.seed(1) indv
..
我正在尝试找出如何使用CROSS_VALIDATE生成混淆矩阵。我可以用我目前掌握的代码打印出分数。 # Instantiating model model = DecisionTreeClassifier() #Scores scoring = {'accuracy' : make_scorer(accuracy_score), 'precision' : mak
..
我正在尝试使用cross_val_score和自定义估计器。重要的是,此估计器接收一个成员变量,该变量稍后可在fit函数中使用。但似乎在cross_val_score内部,成员变量被销毁(或者正在创建估计器的新实例)。 以下是可以重现错误的最小代码: from sklearn.model_selection import cross_val_score from sklearn.base i
..
我正在尝试找出如何用python中的lightgbm来训练gbdt分类器,但与the official website中提供的示例混淆了。 按照列出的步骤,我发现VALIDATION_DATA不知从何而来,并且不知道VALID_DATA的格式,也不知道使用或不使用它的训练模型的优点或用处。 随之而来的另一个问题是,在文档中,有一句话是说“验证数据应该与训练数据对齐”,当我查看数据集的细节时,我发现
..
我希望生成具有5倍交叉验证的精度-召回曲线,以显示example ROC curve code here中的标准偏差。 下面的代码(改编自How to Plot PR-Curve Over 10 folds of Cross Validation in Scikit-Learn)给出了每一次交叉验证的PR曲线以及平均PR曲线。我还想用灰色显示平均PR曲线上下一个标准差的区域。但它显示以下错误(代
..
我的问题与中提出的问题非常相似 caret: combine createResample and groupKFold 唯一的区别是:我需要在分组后创建分层折叠(也重复10次),而不是引导重采样(据我所知它不是分层的),以便与插入的Train Control一起使用。 下面的代码使用10倍重复的简历,但我不能包括基于“ID”(df$ID)的数据分组。 # creating indices
..
考虑以下网格搜索: grid = GridSearchCV(clf, parameters, n_jobs =-1, iid=True, cv =5) grid_fit = grid.fit(X_train1, y_train1) 根据SkLearning的资源,grid_fit.best_score_ 返回Best_Estiator的交叉验证的平均分数。 对我来说,这意味着:
..
TLDR:如何从sklearn.precessing.PolynomialFeature()函数获取输出NumPy数组的头? 假设我有以下代码... import pandas as pd import numpy as np from sklearn import preprocessing as pp a = np.ones(3) b = np.ones(3) * 2 c = n
..
我有包含类别值和非类别值的数据集。 我对类别值应用了OneHotEncode,对连续值应用了StandardScaler。 transformerVectoriser = ColumnTransformer(transformers=[('Vector Cat', OneHotEncoder(handle_unknown = "ignore"), ['A', 'B', 'C']),
..
与Custom cross validation split sklearn类似,我想为GridSearchCV定义我自己的拆分,我需要为它定制内置的交叉验证迭代器。 我希望将用于交叉验证的我自己的训练测试索引集传递给GridSearch,而不是让迭代器为我确定它们。我翻遍了skLearning文档页面上可用的简历迭代器,但没有找到。 例如,我想要实现如下内容 数据有9个样本 对于2份简历
..
我正在使用skLearning执行多分类任务。我需要将所有数据拆分为Train_Set和TestSet。我想从每个班级随机抽取相同的样本号。 实际上,我觉得这个功能很有趣 X_train, X_test, y_train, y_test = cross_validation.train_test_split(Data, Target, test_size=0.3, random_state=
..
我试图了解在Logistic回归交叉验证中如何计算最佳系数,其中“refit”参数为True。 如果我对docs的理解是正确的,那么最好的系数是首先确定最佳正则化参数“C”的结果,即在所有折叠上具有最高平均分数的C值。然后,最好的系数就是在最佳C得分最高的折叠上计算的系数。我假设,如果最大分数被几个折叠获得,则这些折叠的系数将被平均,以得到最佳系数(我在文档中没有看到任何关于如何处理这种情况的内容
..
使用交叉验证来确定最佳参数似乎相当标准。当然,这通常是一个耗时的过程。有什么捷径吗?有没有其他更快的探索性分析形式,可以提供关于哪些值将是最佳的提示? 例如,以我目前对机器学习和支持向量机的理解,我可能会做一些事情,比如在C的指数为10的[10e-5,10e5]范围内执行初始网格搜索,然后从那里进行微调。但有没有一种方法可以让我快速估计出最佳的C在10e3和10e5之间,然后执行更具体的搜索?
..
我想在 MATLAB 中使用 LibSVM 进行一类分类. 我想训练数据并使用交叉验证,但我不知道如何标记异常值. 例如,如果我有这些数据: trainData = [1,1,1;1,1,2;1,1,1.5;1,1.5,1;20,2,3;2,20,2;2,20,5;20,2,2];labelTrainData = [-1 -1 -1 -1 0 0 0 0]; (前四个是1类的例子,
..
在 sklearn 中,GridSearchCV 可以将管道作为参数,通过交叉验证找到最佳估计器.然而,通常的交叉验证是这样的: 为了交叉验证时间序列数据,训练和测试数据通常是这样拆分的: 也就是说,测试数据应该总是领先于训练数据. 我的想法是: 编写我自己的k-fold版本类并将其传递给GridSearchCV,这样我就可以享受管道的便利.问题是让 GridSearchC
..
我最近发现了 xgb.cv 中的 folds 参数,它允许指定验证集的索引.然后在 xgb.cv 中调用辅助函数 xgb.cv.mknfold,然后将每个折叠的剩余索引作为相应训练集的索引折叠. 问题:我可以通过 xgboost 接口中的任何接口同时指定训练和验证索引吗? 我的主要动机是执行时间序列交叉验证,我不希望将“非验证"索引自动分配为训练数据.一个例子来说明我想要做什么: #
..
我在 scikit 工作,我正在尝试调整我的 XGBoost.我尝试使用管道进行嵌套交叉验证来重新缩放训练折叠(以避免数据泄漏和过度拟合),并与 GridSearchCV 并行进行参数调整和 cross_val_score 以最终获得 roc_auc 分数. from imblearn.pipeline import Pipeline从 sklearn.model_selection 导入 Re
..
我是 pytorch 的新手,正在尝试实现一个前馈神经网络来对 mnist 数据集进行分类.我在尝试使用交叉验证时遇到了一些问题.我的数据具有以下形状:x_train:torch.Size([45000, 784]) 和y_train: torch.Size([45000]) 我尝试使用 sklearn 的 KFold. kfold =KFold(n_splits=10) 这是我
..
我正在寻找一个在神经网络中应用 10 倍交叉验证的例子.我需要这个问题的链接答案:MATLAB中10-fold SVM分类示例 我想对所有 3 个类进行分类,而在示例中只考虑了两个类. 编辑:这是我为 iris 示例编写的代码 load fisheriris %# 加载鸢尾花数据集k=10;cvFolds = crossvalind('Kfold', 物种, k);%# 获取 10
..
所以我读过一篇论文,该论文使用神经网络对一个数据集进行建模,该数据集与我目前使用的数据集相似.我有 160 个描述符变量,我想为 160 个案例建模(回归建模).我阅读的论文使用了以下参数:- '对于每个分割,都为 10 个单独的训练测试折叠中的每一个开发了一个模型.具有 33 个输入神经元和 16 个隐藏神经元的三层反向传播网络用于在线权重更新、0.25 学习率和 0.9 动量.对于每个折
..