scikit-learn相关内容
一般来说,mean_squared_error越小越好。 当我使用skLearning指标包时,它在文档页面中显示:http://scikit-learn.org/stable/modules/model_evaluation.html 所有记分器对象都遵循较高的返回值是 比较低的返回值要好。因此,衡量 模型和数据之间的距离,例如 指标.均值平方误差,以neg_均值平方误差形式提供 它
..
在sklearn.metrics.f1_core中,F1分数有一个名为“Average”的参数。宏观、微观、加权和样本意味着什么?请详细说明,因为在文档中没有正确解释。或者只需回答以下问题: 为什么Samples是多标签分类的最佳参数? 为什么微观最适合不平衡的数据集? 加权和宏观有什么区别? 推荐答案 问题是关于sklearn.metrics.f1_score中的avera
..
我目前有一个决策树,将功能名称显示为X[index],即X[0], X[1], X[2]等。 from sklearn import tree from sklearn.tree import DecisionTreeClassifier dt = DecisionTreeClassifier() dt.fit(X_train, y_train) # plot tree plt.fi
..
我正在尝试找出如何使用CROSS_VALIDATE生成混淆矩阵。我可以用我目前掌握的代码打印出分数。 # Instantiating model model = DecisionTreeClassifier() #Scores scoring = {'accuracy' : make_scorer(accuracy_score), 'precision' : mak
..
我正在尝试使用cross_val_score和自定义估计器。重要的是,此估计器接收一个成员变量,该变量稍后可在fit函数中使用。但似乎在cross_val_score内部,成员变量被销毁(或者正在创建估计器的新实例)。 以下是可以重现错误的最小代码: from sklearn.model_selection import cross_val_score from sklearn.base i
..
我希望生成具有5倍交叉验证的精度-召回曲线,以显示example ROC curve code here中的标准偏差。 下面的代码(改编自How to Plot PR-Curve Over 10 folds of Cross Validation in Scikit-Learn)给出了每一次交叉验证的PR曲线以及平均PR曲线。我还想用灰色显示平均PR曲线上下一个标准差的区域。但它显示以下错误(代
..
考虑以下网格搜索: grid = GridSearchCV(clf, parameters, n_jobs =-1, iid=True, cv =5) grid_fit = grid.fit(X_train1, y_train1) 根据SkLearning的资源,grid_fit.best_score_ 返回Best_Estiator的交叉验证的平均分数。 对我来说,这意味着:
..
TLDR:如何从sklearn.precessing.PolynomialFeature()函数获取输出NumPy数组的头? 假设我有以下代码... import pandas as pd import numpy as np from sklearn import preprocessing as pp a = np.ones(3) b = np.ones(3) * 2 c = n
..
我有包含类别值和非类别值的数据集。 我对类别值应用了OneHotEncode,对连续值应用了StandardScaler。 transformerVectoriser = ColumnTransformer(transformers=[('Vector Cat', OneHotEncoder(handle_unknown = "ignore"), ['A', 'B', 'C']),
..
与Custom cross validation split sklearn类似,我想为GridSearchCV定义我自己的拆分,我需要为它定制内置的交叉验证迭代器。 我希望将用于交叉验证的我自己的训练测试索引集传递给GridSearch,而不是让迭代器为我确定它们。我翻遍了skLearning文档页面上可用的简历迭代器,但没有找到。 例如,我想要实现如下内容 数据有9个样本 对于2份简历
..
我正在使用skLearning执行多分类任务。我需要将所有数据拆分为Train_Set和TestSet。我想从每个班级随机抽取相同的样本号。 实际上,我觉得这个功能很有趣 X_train, X_test, y_train, y_test = cross_validation.train_test_split(Data, Target, test_size=0.3, random_state=
..
我目前正在使用XgBoost开发一个回归模型。因为xgBoost有多个超参数,所以我用GridSearchCV()添加了交叉验证逻辑。作为试验,我设置了max_depth: [2,3]。我的python代码如下所示。 from sklearn.model_selection import GridSearchCV from sklearn.metrics import make_scorer
..
我使用的是XGBoost中的XGBArtifier()。我收到以下不推荐使用的警告。 是否有解决方案可以消除此警告? /home/carnd/anaconda3/envs/dl/lib/python3.5/site-packages/sklearn/cross_validation.py:44: DeprecationWarning: This module was deprecate
..
是否可以限制SCRICKIT-LEARN或STATSMODEL中的线性回归调整参数的范围,例如,在statsModels.regression.line_Model.OLS或sklearn.linearModel.LinearRegress中? http://statsmodels.sourceforge.net/devel/generated/statsmodels.regression.
..
我正在使用SkLearning和statsModel执行线性回归。 我知道SkLearning和statsModel产生的结果是一样的。如下图所示,SkLearning和statsModels得出的结果是相同的,但在SkLearning中使用fit_intercept=False截距为零时,即使系数相同,结果也不同。 你能解释一下原因吗?或者当我在SkLearning中使用fit_in
..
我对我的数据执行了主成分分析。数据如下所示: df Out[60]: Drd1_exp1 Drd1_exp2 Drd1_exp3 ... M7_pppp M7_puuu Brain_Region 0 -1.0 -1.0 -1.0 ... 0.0 0.0 BaGr 3
..
我有一个数据帧df,它包含一个名为‘Event’的列,其中有一个24x24x40数值数组。我想: 提取此数字数组; 将其展平为1x23040向量; 将此条目作为列添加到新的Numpy数组或数据帧中; 对结果矩阵执行PCA。 但是,PCA生成的特征向量的维度为“条目数”,而不是“数据中的维度数”。 为了说明我的问题,我演示了一个运行良好的最小示例: 示例1 fro
..
将我的数据放入 X=我的数据 pca = PCA(n_components=1) pca.fit(X) X_pca = pca.fit_transform(X) 现在X_PCA有一个维度。 定义的逆变换不是应该返回到原始数据,也就是X,二维数组吗? 当我这样做时 X_ori = pca.inverse_transform(X_pca) 我得到的尺寸相同,但数字不同。
..
我正在使用SCRKIT学习PCA,并尝试选择满足1-(Sum I 1 To K Sii)/(Sum J 1 To N Sjj)<;=0.01的最小分量数,其中S是SvD对角线矩阵,以便保留99%的方差。 SCRICKIT LEARN是否具有返回给定方差保留百分比阈值的最小分量的函数? 有没有更有效的方法来计算n_Component? 谢谢。 推荐答案 只需将n_com
..
使用SCISKIT-LEARN的便捷export_graphviz函数导出.ot文件后。 我正在尝试使用Graphviz将点文件呈现到我的Jupyter笔记本的单元格中: import graphviz from IPython.display import display with open("tree_1.dot") as f: dot_graph = f.read()
..