train-test-split - IT屋-程序员软件开发技术分享社区

单例数组数组(, dtype=object)不能被视为有效集合

不知道如何解决.任何帮助非常感谢.我看到了矢量化:不是有效的集合，但不确定我是否理解这一点> train = df1.iloc[:,[4,6]]目标 =df1.iloc[:,[0]]def train(分类器, X, y):X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state= ..

发布时间：2021-12-25 14:45:29 python pandas scikit-learn pipeline train-test-split Python

用于不平衡二元分类的过采样数据的过程

我有大约 30% 和 70% 的 0 类(少数类)和 1 类(多数类).由于我没有很多数据，我计划对少数类进行过采样以平衡这些类，使其成为 50-50 的分割.我想知道是否应该在将数据拆分为训练集和测试集之前或之后进行过采样.我通常在在线示例中看到它在拆分之前完成，如下所示: df_class0 = train[train.predict_var == 0]df_class1 = train[t ..

发布时间：2021-12-25 14:45:10 machine-learning scikit-learn classification train-test-split imbalanced-data AI人工智能

scikit-learn 错误:y 中人口最少的类只有 1 个成员

我正在尝试使用 train_test_split 来自 scikit-learn 的函数，但我收到此错误: 在[1]中:y.iloc[:,0].value_counts()出[1]:M2 38M1 35M4 29M5 15M0 15M3 15在 [2] 中:xtrain, xtest, ytrain, ytest = train_test_split(X, y, test_size=1/3, r ..

发布时间：2021-12-25 14:40:30 python scikit-learn train-test-split Python

使用 ImageDataGenerator 时的 Keras 拆分训练测试集

我有一个包含图像子文件夹(根据标签)的目录.我想在 Keras 中使用 ImageDataGenerator 时将此数据拆分为训练集和测试集.尽管 keras 中的 model.fit() 具有用于指定拆分的参数 validation_split，但我找不到与 model.fit_generator() 相同的参数.怎么做? train_datagen = ImageDataGenerator( ..

发布时间：2021-12-19 12:26:00 keras train-test-split 其他开发

在拆分训练和测试数据之前或之后标准化数据?

我想将我的数据分成训练集和测试集，我应该在拆分之前还是之后对数据应用标准化?在构建预测模型时有什么不同吗? 解决方案您首先需要将数据拆分为训练集和测试集(验证集也可能有用). 不要忘记测试数据点代表真实世界的数据.解释(或预测)变量的特征归一化(或数据标准化)是一种用于通过减去均值并除以方差来使数据居中和归一化的技术.如果您采用整个数据集的均值和方差，您会将未来信息引入训练解释变量 ..

发布时间：2021-12-14 09:49:49 machine-learning data-science normalization training-data train-test-split AI人工智能

使用验证、训练和测试集之间的顺序

我试图了解机器学习中模型评估和验证的过程.具体来说，必须以何种顺序以及如何使用训练、验证和测试集. 假设我有一个数据集并且我想使用线性回归.我在各种多项式度(超参数)之间犹豫. 在这篇维基百科文章中，似乎暗示该序列应该是: 将数据拆分为训练集、验证集和测试集使用训练集拟合模型(找到最佳参数:多项式的系数). 之后，使用验证集找到最佳超参数(在这种情况下，多项式次数)(维基百 ..

发布时间：2021-12-14 09:17:21 machine-learning cross-validation train-test-split AI人工智能

Spark 火车测试拆分

我很好奇是否有类似于 sklearn 的 http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedShuffleSplit.html 用于最新 2.0.1 版本中的 apache-spark. 到目前为止，我只能找到 https://spark.apache.org/docs/lat ..

发布时间：2021-11-14 21:01:27 apache-spark apache-spark-mllib train-test-split 其他开发

如何在 Python 脚本中将 tensorflow 数据集拆分为训练、测试和验证?

在带有 Tensorflow-2.0.0 的 jupyter notebook 上，以这种方式执行了 80-10-10 的训练验证测试拆分: 将 tensorflow_datasets 导入为 tfds从 os 导入 getcwd拆分 = tfds.Split.ALL.subsplit(weighted=(80, 10, 10))filePath = f"{getcwd()}/../tmp2/" ..

发布时间：2021-09-05 20:06:21 python tensorflow tensorflow-datasets train-test-split Python

在测试和训练数据集中使用基于时间的拆分来拆分数据

我知道 train_test_split 是随机拆分的，但我需要知道如何根据时间拆分. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)# 这将数据随机拆分为 67% 的测试和 33% 的训练如何在 67% 的训练和 33% 的测试中根据时间拆分相同的数据集? ..

发布时间：2021-07-16 20:00:37 python scikit-learn timestamp train-test-split Python

如何使用sklearn将数据分为3个或更多部分

我想将数据分为分层的训练，测试和验证数据集，但是sklearn仅提供cross_validation.train_test_split，该数据只能分为2个部分. 我该怎么办解决方案如果要使用分层训练/测试拆分，则可以使用在这里: 从sklearn.model_selection导入 cv_stf = StratifiedKFold(n_splits=3)对于skf.split(X，y ..

发布时间：2021-05-31 18:37:17 python machine-learning scikit-learn cross-validation train-test-split AI人工智能

给定比例将文件随机分发到训练/测试中

目前，我正在尝试制作一个设置脚本，该脚本能够为我设置一个工作区，这样我就不需要手动进行操作了.我开始以bash的方式执行此操作，但很快就意识到这样做效果不佳. 我的下一个想法是使用python来完成此操作，但似乎无法采用正确的方法.我的想法是创建一个列表(一个列表是一个.txt文件，其中包含所有数据文件的路径)，随机播放此列表，然后根据给定的比率将每个文件移动到我的火车目录或测试目录中... ..

发布时间：2021-04-14 19:57:58 python bash text-files file-handling train-test-split Python

如何生成基于组ID的Train-Test-Split?

我有以下数据: pd.DataFrame({'Group_ID':[1,1,1,2,2,2,3,4,5,5], 'Item_id':[1,2,3,4,5,6,7,8,9,10], 'Target': [0,0,1,0,1,1,0,0,0,1]}) Group_ID Item_id Target 0 1 1 ..

发布时间：2020-11-21 01:00:24 python-3.x pandas machine-learning grouping train-test-split AI人工智能

为不平衡的二进制分类对数据进行过采样的过程

我的班级0（少数族裔）和班级1（多数是阶级）分别占30％和70％。由于我没有很多数据，因此我计划对少数群体进行过度采样，以平衡这些群体以达到50-50的比例。我想知道是否应该在将数据分为训练集和测试集之前或之后进行过采样。我通常在拆分成在线示例之前就已经看到它完成了，例如： df_class0 = train [train.predict_var == 0] df_class1 =火车 ..

发布时间：2020-10-02 03:01:26 machine-learning scikit-learn classification train-test-split imbalanced-data AI人工智能

scikit-learn错误:y中人口最少的类只有1个成员

我正在尝试使用 train_test_split 函数，但出现此错误: In [1]: y.iloc[:,0].value_counts() Out[1]: M2 38 M1 35 M4 29 M5 15 M0 15 M3 15 In [2]: xtrain, xtest, ytrain, ytest = train_test_split(X, y, ..

发布时间：2020-07-11 18:56:35 python scikit-learn train-test-split Python

火花火车测试分裂

我很好奇是否有类似于sklearn的 http:在最新的2.0.1版本中///scikit-learn.org/stable/modules/generation/sklearn.model_selection.StratifiedShuffleSplit.html 用于apache-spark. 到目前为止，我只能找到 https://spark. apache.org/docs/late ..

发布时间：2020-07-11 18:56:32 apache-spark apache-spark-mllib train-test-split 其他开发

在scikit-learn中进行分层训练/验证/测试拆分

这里已经有关于如何通过train_test_split(如何将数据分成3组(训练，验证和测试)?).但是如何进行分层训练/验证/测试拆分呢? 进行分层(在类标签上)训练/验证/测试拆分时想到的最接近的近似值如下，但我怀疑有更好的方法也许可以通过一个函数调用或更准确地实现: 假设我们要进行60/20/20训练/验证/测试拆分，那么我目前的方法是先对60/40进行分层拆分，然后对前40进行 ..

发布时间：2020-07-11 18:56:30 python scikit-learn train-test-split Python

如何在测试和训练中分别使用基于时间的数据拆分

如何使用基于时间的拆分将数据拆分为训练和测试. 我知道train_test_split会随机拆分它，以及如何根据时间拆分它. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42) # this splits the data randomly as ..

发布时间：2020-07-11 18:55:26 python scikit-learn timestamp train-test-split Python

如何使用张量流执行k倍交叉验证?

我正在关注 tensorflow的IRIS示例我现在的情况是我将所有数据保存在一个CSV文件中，没有分开，我想对该数据应用k倍交叉验证. 我有 data_set = tf.contrib.learn.datasets.base.load_csv(filename="mydata.csv", ..

发布时间：2020-07-11 18:55:23 python tensorflow cross-validation train-test-split Python

关于train_test_split用于机器学习的想法

我刚刚注意到，很多人甚至在处理丢失的数据之前就倾向于使用train_test_split，似乎他们在一开始就将数据分割了还有很多人，他们在完成所有数据清理和特征工程，特征选择之类的工作之后，往往会在模型构建步骤之前就将数据滑倒. 人们一开始倾向于拆分数据，这是为了防止数据泄漏. 我现在对构建模型的流程非常困惑. 为什么我们需要一开始就隐藏数据?并在我们实际上可以进行所有数据清理 ..

发布时间：2020-07-11 18:54:20 machine-learning train-test-split AI人工智能

CountVectorizer MultinomialNB中的尺寸不匹配错误

在提出这个问题之前，我不得不说，我已经在此板上彻底阅读了15个以上的相似主题，每个主题都有不同的建议，但所有这些都无法使我正确. 好吧，所以我使用CountVectorizer及其"fit_transform"功能将语料库的文本数据(最初为csv格式)分为训练集和测试集，以适应语料库的词汇量并从文本中提取字数统计功能.然后，我应用MultinomialNB()从训练集中学习并预测测试集.这是 ..

发布时间：2020-07-11 18:53:14 python naivebayes countvectorizer train-test-split Python

train-test-split相关内容