imbalanced-data相关内容

Pytorch 中类别不平衡的多标签分类

我有一个多标签分类问题,我正试图用 Pytorch 中的 CNN 解决这个问题.我有 80,000 个训练示例和 7900 个类;每个示例可以同时属于多个类,每个示例的平均类数为 130. 问题是我的数据集非常不平衡.对于某些课程,我只有大约 900 个示例,大约为 1%.对于“过度代表"的类,我有大约 12000 个示例(15%).当我训练模型时,我使用来自 pytorch 的 BCEWi ..
发布时间:2022-01-06 19:09:48 其他开发

用于不平衡二元分类的过采样数据的过程

我有大约 30% 和 70% 的 0 类(少数类)和 1 类(多数类).由于我没有很多数据,我计划对少数类进行过采样以平衡这些类,使其成为 50-50 的分割.我想知道是否应该在将数据拆分为训练集和测试集之前或之后进行过采样.我通常在在线示例中看到它在拆分之前完成,如下所示: df_class0 = train[train.predict_var == 0]df_class1 = train[t ..

Pytorch - 如何使用 weightedrandomsampler 进行欠采样

我有一个不平衡的数据集,想对代表性过高的类进行抽样不足.我该怎么做.我想使用 weightedrandomsampler,但我也愿意接受其他建议. 到目前为止,我假设我的代码必须具有如下结构.但我不知道该怎么做. trainset = datasets.ImageFolder(path_train,transform=transform)...sampler = data.Weight ..

为不平衡的二进制分类对数据进行过采样的过程

我的班级0(少数族裔)和班级1(多数是阶级)分别占30%和70%。由于我没有很多数据,因此我计划对少数群体进行过度采样,以平衡这些群体以达到50-50的比例。我想知道是否应该在将数据分为训练集和测试集之前或之后进行过采样。我通常在拆分成在线示例之前就已经看到它完成了,例如: df_class0 = train [train.predict_var == 0] df_class1 =火车 ..

交叉验证中的平衡类

我想用H2O建立GBM模型.我的数据集不平衡,所以我正在使用balance_classes参数.对于网格搜索(参数调整),我想使用5倍交叉验证.我想知道在这种情况下H2O如何处理类平衡.只有训练倍数会重新平衡吗?我想确保测试折叠不重新平衡. 谢谢. 解决方案 在类不平衡设置中,人为地平衡测试/验证集没有任何意义:这些集必须保持 realistic ,即您想要在现实世界中测试分类器的性 ..