imbalanced-data相关内容
我有一个多标签分类问题,我正试图用 Pytorch 中的 CNN 解决这个问题.我有 80,000 个训练示例和 7900 个类;每个示例可以同时属于多个类,每个示例的平均类数为 130. 问题是我的数据集非常不平衡.对于某些课程,我只有大约 900 个示例,大约为 1%.对于“过度代表"的类,我有大约 12000 个示例(15%).当我训练模型时,我使用来自 pytorch 的 BCEWi
..
我有大约 30% 和 70% 的 0 类(少数类)和 1 类(多数类).由于我没有很多数据,我计划对少数类进行过采样以平衡这些类,使其成为 50-50 的分割.我想知道是否应该在将数据拆分为训练集和测试集之前或之后进行过采样.我通常在在线示例中看到它在拆分之前完成,如下所示: df_class0 = train[train.predict_var == 0]df_class1 = train[t
..
我正在处理一个不平衡的数据集,其中我有一个包含 2 个不同值的类变量:0 和 1. “0"值的数量为 1000,“1"值的数量为 3000. 对于 XGBClassifier、LGBMClassifier 和 CatBoostClassifier,我发现有一个名为“scale_pos_weight"的参数.允许修改类值的权重: scale_pos_weight = number_
..
我有一个不平衡的数据集,想对代表性过高的类进行抽样不足.我该怎么做.我想使用 weightedrandomsampler,但我也愿意接受其他建议. 到目前为止,我假设我的代码必须具有如下结构.但我不知道该怎么做. trainset = datasets.ImageFolder(path_train,transform=transform)...sampler = data.Weight
..
我正在使用SMOTE-NC对我的分类数据进行过采样.我只有1个功能和10500个样本. 在运行以下代码时,出现错误: ---------------------------------------------------------------------------ValueError Traceback(最近一次通话)
..
对于给定的不平衡数据,我为标准化创建了不同的管道。一种热编码 numeric_transformer = Pipeline(steps = [( 'scaler',StandardScaler())]) categorical_transformer = Pipeline(steps = ['ohe',OneHotCategoricalEncoder()]) 之后,将上面
..
我的班级0(少数族裔)和班级1(多数是阶级)分别占30%和70%。由于我没有很多数据,因此我计划对少数群体进行过度采样,以平衡这些群体以达到50-50的比例。我想知道是否应该在将数据分为训练集和测试集之前或之后进行过采样。我通常在拆分成在线示例之前就已经看到它完成了,例如: df_class0 = train [train.predict_var == 0] df_class1 =火车
..
我想用H2O建立GBM模型.我的数据集不平衡,所以我正在使用balance_classes参数.对于网格搜索(参数调整),我想使用5倍交叉验证.我想知道在这种情况下H2O如何处理类平衡.只有训练倍数会重新平衡吗?我想确保测试折叠不重新平衡. 谢谢. 解决方案 在类不平衡设置中,人为地平衡测试/验证集没有任何意义:这些集必须保持 realistic ,即您想要在现实世界中测试分类器的性
..