imbalanced-data - IT屋-程序员软件开发技术分享社区

Pytorch 中类别不平衡的多标签分类

我有一个多标签分类问题，我正试图用 Pytorch 中的 CNN 解决这个问题.我有 80,000 个训练示例和 7900 个类；每个示例可以同时属于多个类，每个示例的平均类数为 130. 问题是我的数据集非常不平衡.对于某些课程，我只有大约 900 个示例，大约为 1%.对于“过度代表"的类，我有大约 12000 个示例(15%).当我训练模型时，我使用来自 pytorch 的 BCEWi ..

发布时间：2022-01-06 19:09:48 pytorch multilabel-classification imbalanced-data 其他开发

用于不平衡二元分类的过采样数据的过程

我有大约 30% 和 70% 的 0 类(少数类)和 1 类(多数类).由于我没有很多数据，我计划对少数类进行过采样以平衡这些类，使其成为 50-50 的分割.我想知道是否应该在将数据拆分为训练集和测试集之前或之后进行过采样.我通常在在线示例中看到它在拆分之前完成，如下所示: df_class0 = train[train.predict_var == 0]df_class1 = train[t ..

发布时间：2021-12-25 14:45:10 machine-learning scikit-learn classification train-test-split imbalanced-data AI人工智能

我怎么知道 XGBoost 的正类值和负类值是什么?

我正在处理一个不平衡的数据集，其中我有一个包含 2 个不同值的类变量:0 和 1. “0"值的数量为 1000，“1"值的数量为 3000. 对于 XGBClassifier、LGBMClassifier 和 CatBoostClassifier，我发现有一个名为“scale_pos_weight"的参数.允许修改类值的权重: scale_pos_weight = number_ ..

发布时间：2021-10-01 18:37:09 python classification xgboost catboost imbalanced-data Python

Pytorch - 如何使用 weightedrandomsampler 进行欠采样

我有一个不平衡的数据集，想对代表性过高的类进行抽样不足.我该怎么做.我想使用 weightedrandomsampler，但我也愿意接受其他建议. 到目前为止，我假设我的代码必须具有如下结构.但我不知道该怎么做. trainset = datasets.ImageFolder(path_train,transform=transform)...sampler = data.Weight ..

发布时间：2021-06-07 19:58:11 neural-network pytorch conv-neural-network imbalanced-data cnn 其他开发

SMOTE为所有类别的数据集提供数组大小/ValueError

我正在使用SMOTE-NC对我的分类数据进行过采样.我只有1个功能和10500个样本. 在运行以下代码时，出现错误: ---------------------------------------------------------------------------ValueError Traceback(最近一次通话) ..

发布时间：2021-05-31 18:38:14 python machine-learning imbalanced-data imblearn smote AI人工智能

在数据不平衡的管道中进行交叉验证的正确方法

对于给定的不平衡数据，我为标准化创建了不同的管道。一种热编码 numeric_transformer = Pipeline（steps = [（ 'scaler'，StandardScaler（））]） categorical_transformer = Pipeline（steps = ['ohe'，OneHotCategoricalEncoder（）]）之后，将上面 ..

发布时间：2020-10-11 20:04:20 machine-learning scikit-learn cross-validation imbalanced-data smote AI人工智能

为不平衡的二进制分类对数据进行过采样的过程

我的班级0（少数族裔）和班级1（多数是阶级）分别占30％和70％。由于我没有很多数据，因此我计划对少数群体进行过度采样，以平衡这些群体以达到50-50的比例。我想知道是否应该在将数据分为训练集和测试集之前或之后进行过采样。我通常在拆分成在线示例之前就已经看到它完成了，例如： df_class0 = train [train.predict_var == 0] df_class1 =火车 ..

发布时间：2020-10-02 03:01:26 machine-learning scikit-learn classification train-test-split imbalanced-data AI人工智能

交叉验证中的平衡类

我想用H2O建立GBM模型.我的数据集不平衡，所以我正在使用balance_classes参数.对于网格搜索(参数调整)，我想使用5倍交叉验证.我想知道在这种情况下H2O如何处理类平衡.只有训练倍数会重新平衡吗?我想确保测试折叠不重新平衡. 谢谢. 解决方案在类不平衡设置中，人为地平衡测试/验证集没有任何意义:这些集必须保持 realistic ，即您想要在现实世界中测试分类器的性 ..

发布时间：2020-05-04 09:15:59 machine-learning cross-validation h2o gbm imbalanced-data AI人工智能

imbalanced-data相关内容