imblearn相关内容

SMOTE 初始化期望 n_neighbors <= n_samples,但 n_samples <;n_neighbors

我已经预先清理了数据,下面是前4行的格式: [IN] df.head()[OUT] 清洁年0 1909 熟人收据跟随文员皇冠...1 1909 询问国务秘书国战是否发出声明...2 1909 年我乞求小标志向上的机动车驾驶...3 1909 我想问问国务卿国战少尉...4 1909问国务秘书国战是否会引入... 我按如下方式调用了 train_test_split(): [IN] X_t ..
发布时间:2021-12-25 14:43:30 其他开发

使用 imblearn 管道进行交叉验证之前或之后是否会发生过采样?

在对训练数据进行交叉验证以验证我的超参数之前,我已将我的数据拆分为训练/测试.我有一个不平衡的数据集,想在每次迭代中执行 SMOTE 过采样,所以我使用 imblearn 建立了一个管道. 我的理解是应该在将数据分成k-fold后进行过采样,以防止信息泄露.在下面的设置中使用 Pipeline 时,是否保留了这种操作顺序(数据拆分为 k 折、k-1 折过采样、预测剩余折叠)? from i ..
发布时间:2021-07-16 20:07:16 其他开发

重采样数据 - 使用来自 imblearn 的 SMOTE 和 3D numpy 数组

我想重新采样我的数据集.这包括带有 3 个类别标签的分类转换数据.每类样本量为: A 类计数:6945 B 类计数:650 C 类计数:9066 样本总数:16661 没有标签的数据形状是 (16661, 1000, 256).这意味着 (1000,256) 的 16661 个样本.我想要的是将数据上采样到多数类的样本数,即 A 类 -> (6945) 但是,调用时: f ..
发布时间:2021-06-10 19:31:41 Python

如何从imblearn中的RandomUnderSampler获取样本索引

有人通过imblearn的RandomUnderSampler进行欠采样后,是否知道如何/如何获得所选样本的索引?以前有一个参数"return_indices = True",现在已为新版本删除了该参数,并假定已将其替换为属性"sample_indices_".但是,如果我尝试使用该属性,它将无法正常工作(请参见下面的代码).我正在使用imblearn 0.6.2.版. russs = Ran ..
发布时间:2021-05-31 18:42:01 AI人工智能

如何使用Python对图像数据集进行过采样?

我正在处理一个不平衡的图像数据集(不同类)的多类分类问题.我尝试了 imblearn 库,但是它不适用于图像数据集. 我有一个图像数据集,它属于3类,即A,B,C.A有1000个数据,B有300个数据,C有100个数据.我想对B和C类进行过采样,以便避免数据不平衡.请让我知道如何使用python对图像数据集进行过度采样. 解决方案 感谢您的澄清.通常,您不要使用Python进行过采样 ..

与Imblearn管道和GridSearchCV进行交叉验证

我正在尝试使用imblearn和GridSearchCV中的Pipeline类来获得最佳参数,以对不平衡数据集进行分类.根据提到的答案此处 ,我想不对验证集进行重采样,而仅对训练集进行重采样,而imblearn的Pipeline似乎正在这样做.但是,在实施接受的解决方案时出现错误.请让我知道我在做什么错.下面是我的实现: def imb_pipeline(clf, X, y, params) ..
发布时间:2020-05-28 00:44:57 其他开发