grid-search相关内容
我正在使用以下代码,通过 gridsearchcv 获取 randomforest 的优化参数. x_train,x_test,y_train,y_test = train_test_split(X,y,random_state = 0)rfc = RandomForestClassifier(random_state = 42,class_weight ='balanced')param_g
..
据我了解: best_estimator _ 为评估者提供最高分; best_score _ 提供所选估算器的分数; cv_results _ 可能被利用来获取所有估计量的分数. 但是,我不清楚如何获得估算器本身. 解决方案 据我所知,您不能.但是,您可以做的是从 best_params _ 中获取最佳参数组合,并使用相同的参数再次拟合模型.查看 GridSearchCV 的
..
这是一个有关Python 2.7中的scikit学习(版本0.17.0)以及熊猫0.17.1的问题.为了分割原始数据(不丢失条目),请使用详细的方法 注意:对我来说,重要的是将 X 和 y 保留为Pandas数据结构,这与上述其他stackoverflow问题中介绍的第二种方法类似.即,我不想使用 X.values 和 y.values . 问题:使用原始数据作为Pandas数据结构(
..
我正在使用GridSearchCV进行线性回归(不是分类器或逻辑回归)的交叉验证. 我也使用StandardScaler对X进行归一化 我的数据框具有17个特征(X)和5个目标(y)(观察).约1150行 我不断收到ValueError:不支持Continuous的错误消息,并且用完了所有选项. 下面是一些代码(假设所有导入均正确完成): soilM = pd.read_
..
我正在尝试在scikit-learn中结合使用递归特征消除和网格搜索.从下面的代码可以看到(有效),我能够从网格搜索中获得最佳估计器,然后将该估计器传递给RFECV.但是,我宁愿先执行RFECV,然后再进行网格搜索.问题是当我将选择器从RFECV传递到网格搜索时,它并没有接受它: ValueError:估算器RFECV的无效参数引导程序 是否可以从RFECV中获取选择器并将其直接传递给
..
这是我在这里的第一个问题,希望我做对了, 我正在研究在kaggle上很流行的泰坦尼克号数据集,如果您想检查数据科学框架:实现99%的准确性 第5.2部分介绍了如何进行网格搜索和调整超参数.让我对您的问题特别了解之前,先与您分享相关代码; 这正在使用GridSearchCV调整模型: cv_split = model_selection.ShuffleSplit(n_split
..
我正在尝试使用 scikit-learn 进行网格搜索RandomizedSearchCV函数与 Keras KerasClassifier包装器一起解决了我不平衡的多类分类问题.但是,当我尝试提供class_weight作为输入时,fit方法给我以下错误: RuntimeError: Cannot clone object
..
作为研究项目的一部分,我想选择预处理技术和文本功能的 best 最佳组合,它们可以优化文本分类任务的结果.为此,我使用的是Python 3.6. 有很多方法可以将特征和算法结合起来,但是我想充分利用sklearn的流水线,并使用网格搜索的最终特征组合来测试所有不同的(有效)可能性. 我的第一步是建立一个如下所示的管道: # Run a vectorizer with a pred
..
我目前正在使用scikit-learn在基于树的方法的网格搜索(GridSearchCV)中研究递归特征消除(RFECV).为此,我使用的是GitHub(0.17)上的当前开发版本,该版本允许RFECV使用树方法中的功能重要性来选择要丢弃的功能. 为清楚起见,这意味着: 在超参数上循环使用当前树方法 对每组参数执行递归特征消除以获得最佳特征数 报告“分数"(例如准确性) 确定哪一
..
我正在努力从我的RandomForestRegressor中提取功能的重要性,我得到了: AttributeError:"GridSearchCV"对象没有属性 'feature_importances _'. 谁知道为什么没有属性?根据文档,应该存在此属性吗? 完整代码: from sklearn.ensemble import RandomForestRegressor
..
我正在尝试对我的超参数进行网格搜索,以调整深度学习架构。我对该模型有多个输入选项,并且正在尝试使用sklearn的网格搜索API。问题是,网格搜索api仅将单个数组作为输入,并且在检查数据大小维度时代码失败。(我的输入维度是5 *数据点数,而根据sklearn api,它应该是数据点数*功能尺寸)。我的代码如下所示: from keras.layers import串联,重塑,输入,嵌入,
..
我正在尝试使用DecisionTreeClassifier(“ DTC”)作为base_estimator来调整AdaBoost分类器(“ ABT”)。我想同时调整两者和ABT参数,但不确定如何实现-管道不起作用,因为我没有将DTC的输出“管道”到ABT。这个想法是在GridSearchCV估计器中迭代ABT和DTC的超参数。 如何正确指定调整参数? 我尝试了以下操作,这在下面产生了错
..
在scikit学习0.20之前,我们可以使用 result.grid_scores_ [result.best_index _] 来获取标准偏差。 (例如:平均值:0.76172,标准:0.05225,参数:{'n_neighbors':21} ) 在scikit-learn 0.20中获得最佳分数的标准偏差的最佳方法是什么? 解决方案 在较新的版本中, grid_scores _
..
GridSearchCV 和 RandomizedSearchCV 具有 best_estimator _ : / p> 仅返回最佳估算器/模型 通过一种简单的评分方法找到最佳估算器:准确性,召回率,精度等。 仅基于训练集进行评估 我想通过 我自己的评分方法定义 进一步评估测试集,而不是像GridSearchCV那样进行训练。最终,至关重要的是测试仪的性能。训练集倾向于在G
..
最近,我正在做多个实验来比较Python XgBoost和LightGBM。似乎这个LightGBM是一种新算法,人们说它在速度和准确性上都比XGBoost更好。 这是 LightGBM GitHub 。 这是 LightGBM python API文档,在这里您将查找可以调用的python函数。可以从LightGBM模型直接调用它,也可以由LightGBM scikit-learn调用。
..
我是scikit的新手,结合数据缩放和网格搜索有2个小问题。 高效缩放器 考虑使用Kfolds进行交叉验证,我希望每次我们在K-1折叠上训练模型时,数据缩放器(使用预处理例如。StandardScaler()仅适合K-1折叠,然后应用于其余折叠。 我的印象是,以下代码将适合整个数据集上的缩放器,因此我想将其修改为先前描述的行为: classifier = svm.SVC(
..
我对sci-kit学习还很陌生,并且一直在尝试对XGBoost进行超参数调整。我的目标是使用早期停止和网格搜索来调整模型参数,并使用早期停止来控制树的数量并避免过度拟合。 当我在网格搜索中使用交叉验证时,我希望在早期停止条件中也使用交叉验证。到目前为止,我拥有的代码如下: import numpy as np import pandas as pd 从sklearn导入mode
..
我正在使用以下代码在服务器上运行Python 3分类脚本: #为转换后的数据定义knn分类器 knn_classifier = neighbors.KNeighborsClassifier() #定义KNN参数 knn_parameters = [{ 'n_neighbors':[1、3、5、7、9、9, 11], 'leaf_size':[5、10、15、20、25、30、35、4
..
我正在尝试为SVR模型获取最佳的参数集。 我想在 C 的不同值上使用 GridSearchCV 。 但是,从以前的测试中,我注意到将训练/测试集分为两个部分会影响整体性能(在本例中为r2)。 为了解决这个问题,我想实施重复的5倍交叉验证(10 x 5CV)。是否有使用 GridSearchCV 进行构建的内置方法? 快速解决方案: 遵循sci-kit中提出的想法官方文档,则快速解
..
有人可以帮助我从网格搜索中提取性能最佳的模型参数吗?由于某种原因,它是一本空白的字典. from pyspark.ml.tuning import ParamGridBuilder, TrainValidationSplit, CrossValidator from pyspark.ml.evaluation import BinaryClassificationEvaluator tr
..