grid-search相关内容
我想将XGBoost模型与输入缩放和PCA减少的功能空间结合起来.此外,应该使用交叉验证来调整模型的超参数以及PCA中使用的组件数量.为了防止模型过拟合,应添加早期停止功能. 为了结合各个步骤,我决定使用sklearn的Pipeline功能. 一开始,我在确保PCA也应用于验证集方面遇到了一些问题.但是我认为使用XGB__eval_set可以达成协议. 该代码实际上正在运行,没有
..
我曾经创建循环来为模型寻找最佳参数,这增加了我在编码中的错误,因此我决定使用GridSearchCV. 我正在尝试为我的模型找出PCA的最佳参数(我要在其上进行网格搜索的唯一参数). 在此模型中,归一化后,我想将原始特征与PCA简化特征结合起来,然后应用线性SVM. 然后,我保存整个模型以预测我的输入. 我在尝试拟合数据的行中出现错误,因此可以使用best_estimator_和bes
..
我要做什么? 我正在尝试在GridSearchCV()中使用StratifiedKFold(). 然后,什么让我感到困惑? 当我们使用K折叠交叉验证时,我们只需传递GridSearchCV()内的CV编号,如下所示. grid_search_m = GridSearchCV(rdm_forest_clf, param_grid, cv=5, scoring='f1', re
..
这是关于的后续问题在这里,但我认为它值得拥有自己的线程. 在上一个问题中,我们正在处理“一组Ensemble分类器,每个分类器都有自己的参数."让我们从 MaximeKan 在他的答案中提供的示例开始: my_est = BaggingClassifier(RandomForestClassifier(n_estimators = 100, bootstrap = True,
..
我已经开始使用scikit Learn进行文本提取. 当我在管道中使用标准函数CountVectorizer和TfidfTransformer并尝试与新功能(矩阵的保留性)结合使用时,我遇到了行尺寸问题. 这是我的管道: pipeline = Pipeline([('feats', FeatureUnion([ ('ngram_tfidf', Pipeline([('vect', Co
..
我目前有以下脚本,可以帮助您找到doc2vec模型的最佳模型.它的工作方式如下:首先根据给定的参数训练一些模型,然后针对分类器进行测试.最后,它会输出最佳的模型和分类器(我希望如此). 数据 示例数据(data.csv)可以在此处下载: https://pastebin.com/takYp6T8 请注意,数据的结构应能以1.0的精度构成理想的分类器. 脚本 import s
..
我想在sklearn中构建管道并使用GridSearchCV测试不同的模型. 仅是一个示例(请不要注意选择了哪种特定模型): reg = LogisticRegression() proj1 = PCA(n_components=2) proj2 = MDS() proj3 = TSNE() pipe = [('proj', proj1), ('reg' , reg)] pipe
..
我对Python比较陌生.您可以帮助我将SMOTE的实施改进到适当的流程吗?我想要的是对每个k倍迭代的训练集应用过采样和欠采样,以便在平衡的数据集上训练模型,并在不平衡的遗漏片段上进行评估.问题是,当我这样做时,无法使用熟悉的sklearn界面进行评估和网格搜索. 是否可以制作类似于model_selection.RandomizedSearchCV的内容.我对此: df = pd.r
..
我正在使用Python 2.7和sklearn 0.16实现O'Reilly的书" Python机器学习入门"中的示例. 我正在使用的代码: pipe = make_pipeline(TfidfVectorizer(), LogisticRegression()) param_grid = {"logisticregression_C": [0.001, 0.01, 0.1, 1, 1
..
使用pipeline和GridSearchCV确定最佳参数后,如何在pickle/joblib中重新使用此过程?我看到了当它是单个分类器时该怎么做... from sklearn.externals import joblib joblib.dump(clf, 'filename.pkl') 但是在执行并完成gridsearch之后,如何使用最佳参数保存总体pipeline? 我
..
我刚刚在这里在“模型网格选择"中遇到了这个示例: https://chrisalbon.com/machine_learning/model_selection/model_selection_using_grid_search/ 问题: 示例内容为 # Create a pipeline pipe = Pipeline([('classifier', RandomForest
..
当前,我已经使用def函数成功定义了一个自定义内核函数(预先计算内核矩阵),现在我正在使用GridSearchCV函数来获取最佳参数. 因此,在自定义内核功能中,总共有2个参数将被调整(在下面的示例中为gamm和sea_gamma),对于SVR模型,还有 cost c 参数也必须调整.但是到目前为止,我只能使用GridSearchCV->调整 cost c 参数,请参考下面的第一部分:示例.
..
我阅读了以下有关Python中管道和GridSearchCV的示例: http://www.davidsbatista.net/blog/2017/04/01/document_classification/ 逻辑回归: pipeline = Pipeline([ ('tfidf', TfidfVectorizer(stop_words=stop_words)), ('
..
我正在尝试在知名的威斯康星州癌症数据集(569个样本,31个特征+目标)上找到适用于乳腺癌样本分类的最佳模型神经网络模型.我正在使用sklearn 0.18.1.到目前为止,我还没有使用Normalization.解决此问题后,我会添加它. # some init code omitted X_train, X_test, y_train, y_test = train_test_split
..
我想优化一个具有多个可变参数的算法 作为输入. 对于机器学习任务,Sklearn使用 gridsearch提供超参数的优化. > 功能. Python中是否存在标准化的方法/库,可以优化超参数,而不仅限于机器学习主题? 解决方案 您可以创建自定义管道/估算器(请参见链接 ParameterGrid 可能也对您有帮助.它将自动填充所有超参数设置.
..
我想使用例如,此代码: from sklearn import svm, datasets from sklearn.model_selection import GridSearchCV iris = datasets.load_iris() parameters = {'dual':[True, False], 'penalty' : ['l1', 'l2'], \
..
我的程序的流程分为两个阶段. 我正在使用Sklearn ExtraTreesClassifier和SelectFromModel方法来选择最重要的功能.此处应注意,ExtraTreesClassifier采用许多参数作为输入,例如n_estimators等用于分类,并最终通过SelectFromModel为n_estimators的不同值提供不同的重要特征集.这意味着我可以优化n_estim
..
我正在使用scikit,并且正在尝试调整XGBoost. 我尝试使用嵌套的交叉验证,使用管道对训练折叠进行重新缩放(以避免数据泄漏和过度拟合),并与GridSearchCV并行进行参数调整,并与cross_val_score并行以最终获得roc_auc分数. from imblearn.pipeline import Pipeline from sklearn.model_selection
..
我正在从事一个项目,该项目涉及将某些算法实现为python类并测试其性能.我决定将它们编写为sklearn估算器,以便可以使用 GridSearchCV 进行验证. 但是,我的归纳矩阵完成的算法之一不仅将X和y作为参数.这对于 ,因为似乎没有办法将X和y传递给估计器的fit方法.源显示了GridSearchCV.fit的以下参数: def fit(self, X, y=None, gr
..
我正在尝试在带有管道的GridSearch中使用多个功能列.因此,我传递了两列要为其执行TfidfVectorizer的列,但是在运行GridSearch时遇到了麻烦. Xs = training_data.loc[:,['text','path_contents']] y = training_data['class_recoded'].astype('int32') for col i
..