train-test-split相关内容

用于不平衡二元分类的过采样数据的过程

我有大约 30% 和 70% 的 0 类(少数类)和 1 类(多数类).由于我没有很多数据,我计划对少数类进行过采样以平衡这些类,使其成为 50-50 的分割.我想知道是否应该在将数据拆分为训练集和测试集之前或之后进行过采样.我通常在在线示例中看到它在拆分之前完成,如下所示: df_class0 = train[train.predict_var == 0]df_class1 = train[t ..

使用 ImageDataGenerator 时的 Keras 拆分训练测试集

我有一个包含图像子文件夹(根据标签)的目录.我想在 Keras 中使用 ImageDataGenerator 时将此数据拆分为训练集和测试集.尽管 keras 中的 model.fit() 具有用于指定拆分的参数 validation_split,但我找不到与 model.fit_generator() 相同的参数.怎么做? train_datagen = ImageDataGenerator( ..
发布时间:2021-12-19 12:26:00 其他开发

在拆分训练和测试数据之前或之后标准化数据?

我想将我的数据分成训练集和测试集,我应该在拆分之前还是之后对数据应用标准化?在构建预测模型时有什么不同吗? 解决方案 您首先需要将数据拆分为训练集和测试集(验证集也可能有用). 不要忘记测试数据点代表真实世界的数据.解释(或预测)变量的特征归一化(或数据标准化)是一种用于通过减去均值并除以方差来使数据居中和归一化的技术.如果您采用整个数据集的均值和方差,您会将未来信息引入训练解释变量 ..

使用验证、训练和测试集之间的顺序

我试图了解机器学习中模型评估和验证的过程.具体来说,必须以何种顺序以及如何使用训练、验证和测试集. 假设我有一个数据集并且我想使用线性回归.我在各种多项式度(超参数)之间犹豫. 在这篇维基百科文章中,似乎暗示该序列应该是: 将数据拆分为训练集、验证集和测试集 使用训练集拟合模型(找到最佳参数:多项式的系数). 之后,使用验证集找到最佳超参数(在这种情况下,多项式次数)(维基百 ..

如何使用sklearn将数据分为3个或更多部分

我想将数据分为分层的训练,测试和验证数据集,但是sklearn仅提供cross_validation.train_test_split,该数据只能分为2个部分. 我该怎么办 解决方案 如果要使用分层训练/测试拆分,则可以使用在这里: 从sklearn.model_selection导入 cv_stf = StratifiedKFold(n_splits=3)对于skf.split(X,y ..

给定比例将文件随机分发到训练/测试中

目前,我正在尝试制作一个设置脚本,该脚本能够为我设置一个工作区,这样我就不需要手动进行操作了.我开始以bash的方式执行此操作,但很快就意识到这样做效果不佳. 我的下一个想法是使用python来完成此操作,但似乎无法采用正确的方法.我的想法是创建一个列表(一个列表是一个.txt文件,其中包含所有数据文件的路径),随机播放此列表,然后根据给定的比率将每个文件移动到我的火车目录或测试目录中... ..
发布时间:2021-04-14 19:57:58 Python

为不平衡的二进制分类对数据进行过采样的过程

我的班级0(少数族裔)和班级1(多数是阶级)分别占30%和70%。由于我没有很多数据,因此我计划对少数群体进行过度采样,以平衡这些群体以达到50-50的比例。我想知道是否应该在将数据分为训练集和测试集之前或之后进行过采样。我通常在拆分成在线示例之前就已经看到它完成了,例如: df_class0 = train [train.predict_var == 0] df_class1 =火车 ..

在scikit-learn中进行分层训练/验证/测试拆分

这里已经有关于如何通过train_test_split(如何将数据分成3组(训练,验证和测试)?).但是如何进行分层训练/验证/测试拆分呢? 进行分层(在类标签上)训练/验证/测试拆分时想到的最接近的近似值如下,但我怀疑有更好的方法也许可以通过一个函数调用或更准确地实现: 假设我们要进行60/20/20训练/验证/测试拆分,那么我目前的方法是先对60/40进行分层拆分,然后对前40进行 ..
发布时间:2020-07-11 18:56:30 Python

关于train_test_split用于机器学习的想法

我刚刚注意到,很多人甚至在处理丢失的数据之前就倾向于使用train_test_split,似乎他们在一开始就将数据分割了 还有很多人,他们在完成所有数据清理和特征工程,特征选择之类的工作之后,往往会在模型构建步骤之前就将数据滑倒. 人们一开始倾向于拆分数据,这是为了防止数据泄漏. 我现在对构建模型的流程非常困惑. 为什么我们需要一开始就隐藏数据?并在我们实际上可以进行所有数据清理 ..
发布时间:2020-07-11 18:54:20 AI人工智能

CountVectorizer MultinomialNB中的尺寸不匹配错误

在提出这个问题之前,我不得不说,我已经在此板上彻底阅读了15个以上的相似主题,每个主题都有不同的建议,但所有这些都无法使我正确. 好吧,所以我使用CountVectorizer及其"fit_transform"功能将语料库的文本数据(最初为csv格式)分为训练集和测试集,以适应语料库的词汇量并从文本中提取字数统计功能.然后,我应用MultinomialNB()从训练集中学习并预测测试集.这是 ..
发布时间:2020-07-11 18:53:14 Python