scikit-learn相关内容
用于提取k均值群集中节点和质心之间距离的任何选项。 我对一个嵌入文本的数据集进行了KMeans聚类,我想知道每个集群中哪些节点远离质心,以便我可以检查各个节点的功能是否有所不同。 提前谢谢! 推荐答案 KMeans.transform()返回每个样本到群集中心的距离数组。 import numpy as np from sklearn.datasets import
..
感谢您提前答复。这是我的第一篇帖子,而且我还是个新手,所以如果我的内容格式化得很糟糕,我很抱歉。 我正在尝试将递归特征消除和网格搜索结合起来,以确定超参数和特征数量的最佳组合。使用下面的代码时,我得到max_Feature必须在(0,n_Feature]估计器拟合失败。除max_Feature之外的任何值都是1。我的数据集中有300多个要素,其中许多可能并不重要。 ‘’
..
from sklearn.model_selection import RandomizedSearchCV # --initialise classifier classifier = RandomForestClassifier(n_estimators=300) # -- set hyperparameters to tune param_grid = { "max_depth":
..
在随机林中预测()和预测_Proba()产生不同的ROC_AUC_Score。 我知道Forecast_Proba()给出了概率,比如在二进制分类的情况下,它会给出两个对应于两个类别的概率。 Forecate()给出它预测的类。 #Using predict_proba() rf = RandomForestClassifier(n_estimators=200, ra
..
我正在使用OneVsRest分类器来解决多标签分类问题。我正在将随机森林分类器传递给它。 from sklearn.multiclass import OneVsRestClassifier from sklearn.ensemble import RandomForestClassifier clf = OneVsRestClassifier(RandomForestClassifier(
..
如果我运行一个模型(在本例中名为clf),我会得到如下所示的输出。如何将其与用于训练分类器的功能输入绑定? >>> clf.feature_importances_ array([ 0.01621506, 0.18275428, 0.09963659,... ]) 推荐答案 正如评论中提到的,顺序或功能重要性看起来是“x”输入变量的顺序(我已将其从Pandas转换为Pytho
..
这是我在这里的第一个问题:-) 我导入了Scikit-Learn提供的Logistic回归类,然后创建了一个对象: from sklearn.linear_model import LogisticRegression my_lr = LogisticRegression() 我正在研究的这本书说,当我检查我的对象时,我应该看到以下输出: LogisticRegression
..
我想对下面包含的LogitRegress函数进行修改,以包括其他自变量和固定效果。 以下代码改编自此处提供的答案:how to use sklearn when target variable is a proportion from sklearn.linear_model import LinearRegression from random import choices from
..
我使用来自乳腺癌数据的以下内容训练Logistic模型,并且只使用了一个特征‘Mean_Area’ from statsmodels.formula.api import logit logistic_model = logit('target ~ mean_area',breast) result = logistic_model.fit() 在训练好的模型中有一个内置的预测方法。然而
..
我正在尝试建立Logistic回归模型,但它显示AttributeError: 'str' object has no attribute 'decode'。请帮我解决这个问题。此代码在Datacamp的服务器上运行良好,但在我的笔记本电脑上显示AttributeError。 import pandas as pd df = pd.read_csv('datasets/diabetes.cs
..
data是一维数据数组。 data = [0.0, 7000.0, 0.0, 7000.0, -400.0, 0.0, 7000.0, -400.0, -7400.0, 7000.0, -400.0, -7000.0, -7000.0, 0.0, 0.0, 0.0, -7000.0, 7000.0, 7000.0, 7000.0, 0.0, -7000.0, 6600.0, -7400.0,
..
我正在进行一个多分类项目,我注意到无论我运行什么分类器,模型中的精度和召回率都是相同的。 分类问题有三个截然不同的类别。数据量偏小,13k实例分为测试(0.8)和训练(0.2)。 训练数据的形状为(10608,28),标签的形状为(10608,3)(二进制标签)。 分类不平衡: 标签0占所有标签的30% 标签1占所有标签的4% 标签2占所有标签的66%。 我正在比
..
我有一个使用决策树作为估计器的流水线GridearchCV 现在我想绘制与GridearchCV的Best_Estiator相对应的决策树 有一些关于堆栈溢出的回复,但没有人考虑在GridearchCV内建立管道 from sklearn.preprocessing import StandardScaler from sklearn.tree import DecisionTr
..
我想在skLearning中使用管道,如下所示: corpus = load_files('corpus/train') stop_words = [x for x in open('stopwords.txt', 'r').read().split(' ')] # Uppercase! countvec = CountVectorizer(stop_words=stop_words,
..
鉴于我的渠道 pipe = Pipeline([('scaler', StandardScaler()), ('regressor', LinearRegression())]) 然后我调用pipe.fit(X_train, y_train),管道是将缩放器同时应用于功能和目标,还是仅应用于功能? 如果不是,y参数在StandardScaler的fit_transform方法中有什么作
..
我面临的挑战是创建一个管道来计算(SI)一个类别变量(如颜色),然后输入(OHE)2个变量(如颜色和星期几)。在两个步骤中使用了颜色。 我想将SI和OHE放在1 ColumnTransformer中。我刚刚了解到SI和OHE是并行运行的,这意味着OHE不会对推算的颜色进行编码。 然后我尝试: si = SimpleImputer(strategy='mean', add_indi
..
我使用的是SciKit中的确切示例,它将permutation_importance与tree feature_importances 进行了比较 如您所见,使用了管道: rf = Pipeline([ ('preprocess', preprocessing), ('classifier', RandomForestClassifier(random_state=42)
..
CT上的单据: remainder{‘drop’, ‘passthrough’} or estimator, default=’drop’ By default, only the specified columns in transformers are transformed and combined in the output, and the non-specified colum
..
我正在学习sklearn自定义转换器,并阅读有关创建自定义转换器的两种核心方法: 通过设置从BaseEstimator和TransformerMixin继承的自定义类,或 通过创建转换方法并将其传递给FunctionTransformer。 我想通过实现元矢量器和功能来比较这两种方法:支持CountVectorizer或TfidfVectorizer的矢量器,并根据指定的矢量器类型转
..
我正在尝试将决策树模型适用于UCI成人数据集。为此,我构建了以下管道: nominal_features = ['workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'native-country'] nominal_transfor
..