oversampling - IT屋-程序员软件开发技术分享社区

SMOTE 初始化期望 n_neighbors <= n_samples，但 n_samples <;n_neighbors

我已经预先清理了数据，下面是前4行的格式: [IN] df.head()[OUT] 清洁年0 1909 熟人收据跟随文员皇冠...1 1909 询问国务秘书国战是否发出声明...2 1909 年我乞求小标志向上的机动车驾驶...3 1909 我想问问国务卿国战少尉...4 1909问国务秘书国战是否会引入... 我按如下方式调用了 train_test_split(): [IN] X_t ..

发布时间：2021-12-25 14:43:30 scikit-learn knn tf-idf oversampling imblearn 其他开发

复制训练示例以处理 Pandas 数据框中的类不平衡

我在 Pandas 中有一个包含训练示例的 DataFrame，例如: feature1 feature2 类0 0.548814 0.791725 11 0.715189 0.528895 02 0.602763 0.568045 03 0.544883 0.925597 04 0.423655 0.071036 05 0.645894 0.087129 06 0.437587 0.0202 ..

发布时间：2021-12-14 09:58:31 python pandas machine-learning oversampling AI人工智能

在 Scikit-learn 中使用 Smote 和 Gridsearchcv

我正在处理一个不平衡的数据集，并希望使用 scikit 的 gridsearchcv 进行网格搜索以调整我的模型参数.为了对数据进行过采样，我想使用 SMOTE，而且我知道我可以将其作为管道的一个阶段包含在内并将其传递给 gridsearchcv.我担心的是，我认为 smote 将同时应用于训练和验证折叠，这不是您应该做的.验证集不应过采样.整个管道将应用于两个数据集拆分是否正确?如果是，我该如何 ..

发布时间：2021-12-14 09:39:18 python machine-learning scikit-learn grid-search oversampling AI人工智能

使用SMOTE对图像数据进行过采样

我正在使用CNN进行二进制分类，并且当阳性医学图像:阴性医学图像= 0.4:0.6时，数据不平衡.因此，我想在训练之前使用SMOTE对正医学图像数据进行过采样.但是，数据的尺寸为4D(761,64,64,3)，这会导致错误找到的数组为暗4.预期的估计量是 ..

发布时间：2021-04-29 20:46:20 image-processing machine-learning scikit-learn deep-learning oversampling AI人工智能

R data.table-以不同的采样比例按组采样

我想有效地从 data.table 中按组进行随机抽样，但是应该可以为每个组采样不同的比例. 如果我想从每个组中采样分数 sampling_fraction ，我可能会受到 ..

发布时间：2021-04-28 19:37:29 r data.table oversampling 其他开发

交叉验证和过采样（SMOTE）功能

我写了下面的代码。 X 是形状为（1000,5）和 y 是形状为（1000,1）的数据框。 y 是要预测的目标数据，并且不平衡。我想应用交叉验证和SMOTE。 def学习（n，est，X，y）： s_k_fold = StratifiedKFold（n_splits = n） acc_scores = [] rec_scores = [] f1_scores = [] 对 ..

发布时间：2020-10-11 20:03:51 python cross-validation oversampling Python

过度采样类别不平衡训练/测试拆分“找到的输入变量样本数量不一致”解？

尝试按照本文进行过采样以实现不平衡分类。我的课堂比率是8：1。 ”> https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets/notebook 我对管道+编码结构感到困惑。在火车/测试分裂后，您是否会过度采样？如果是，您如何处理目标标签从X掉落的事实？我尝试保留它，然后执行过 ..

发布时间：2020-10-02 03:18:28 python pandas scikit-learn classification oversampling Python

Pyspark中的过采样或SMOTE

发布时间：2020-05-04 10:00:32 machine-learning pyspark random-forest oversampling AI人工智能

复制训练示例以处理熊猫数据框中的类不平衡

我在熊猫中有一个DataFrame，其中包含训练示例，例如: feature1 feature2 class 0 0.548814 0.791725 1 1 0.715189 0.528895 0 2 0.602763 0.568045 0 3 0.544883 0.925597 0 4 0.423655 0.071036 ..

发布时间：2020-05-04 09:13:18 python pandas machine-learning oversampling AI人工智能

在Scikit-learn中将smote与Gridsearchcv一起使用

我正在处理不平衡的数据集，并希望使用scikit的gridsearchcv进行网格搜索以调整模型的参数.为了对数据进行过采样，我想使用SMOTE，我知道我可以将其作为管道的一个阶段，并将其传递给gridsearchcv. 我担心的是，我认为击打将同时应用于训练和验证褶皱，这不是您应该做的.验证集不应过采样. 我是否正确，整个管道将应用于两个数据集拆分?如果是的话，我该如何扭转呢? 提前谢谢 ..

发布时间：2020-05-04 08:57:18 python machine-learning scikit-learn grid-search oversampling AI人工智能

SMOTE初始化期望n_neighbors< = n_samples，但是n_samples< n_邻居

我已经预先清理了数据，下面显示了前4行的格式: [IN] df.head() [OUT] Year cleaned 0 1909 acquaint hous receiv follow letter clerk crown... 1 1909 ask secretari state war whether is ..

发布时间：2020-04-26 11:02:18 scikit-learn knn tf-idf oversampling imblearn 其他开发

oversampling相关内容