scikit-learn 第8页 - IT屋-程序员软件开发技术分享社区

sklearn - 具有多个分数的交叉验证

我想计算不同分类器的交叉验证测试的召回、精度和f-measure.scikit-learn 带有 cross_val_score 但不幸的是这样方法不返回多个值. 我可以通过调用 3 次 cross_val_score 来计算这样的度量，但这效率不高.有没有更好的解决办法? 现在我写了这个函数: from sklearn 导入指标def mean_scores(X, y, clf, ..

发布时间：2021-12-25 14:52:40 python numpy scikit-learn Python

在 scikit learn 中使用混淆矩阵作为交叉验证中的评分指标

我正在 scikit learn 中创建管道， pipeline = Pipeline([('弓', CountVectorizer()),('分类器', BernoulliNB()),]) 并使用交叉验证计算准确性 scores = cross_val_score(pipeline, # 将原始消息转换为模型的步骤train_set, # 训练数据label_train, # 训练标签cv ..

发布时间：2021-12-25 14:52:33 python machine-learning scikit-learn AI人工智能

在 scikit-learn 中拟合数据与转换数据

在 scikit-learn 中，所有估算器都有一个 fit() 方法，并且根据它们是有监督的还是无监督的，它们还有一个 predict() 或 transform() 方法. 我正在编写转换器对于无监督学习任务，想知道是否有经验法则可以放置哪种学习逻辑.官方文档在这方面不是很有帮助: fit_transform(X, y=None, **fit_params) 适合数据，然后对其 ..

发布时间：2021-12-25 14:52:25 machine-learning scikit-learn AI人工智能

Python scikit 学习 pca.explained_variance_ratio_ cutoff

在选择主成分数 (k) 时，我们选择 k 作为最小值，以便保留 99% 的方差. 但是，在 Python Scikit 学习中，我不是 100% 确定 pca.explained_variance_ratio_ = 0.99 等于“保留了 99% 的方差"?有谁能开导吗?谢谢. Python Scikit 学习 PCA 手册在这里 http://scikit-learn.org/ ..

发布时间：2021-12-25 14:52:07 python scikit-learn pca Python

Sklearn 如何使用 Joblib 或 Pickle 保存从管道和 GridSearchCV 创建的模型?

在使用pipeline 和GridSearchCV 确定最佳参数后，我如何pickle/joblib 这个过程以后再用?当它是单个分类器时，我知道如何执行此操作... from sklearn.externals import joblibjoblib.dump(clf, 'filename.pkl') 但是如何在执行和完成 gridsearch 后使用最佳参数保存整个 pipeline ? ..

发布时间：2021-12-25 14:51:59 python scikit-learn pipeline grid-search Python

如何在 clf.predict_proba() 中找到对应的类

我有许多类和相应的特征向量，当我运行 predict_proba() 时，我会得到这个: classes = ['one','two','three','one','three']特征 = [[0,1,1,0],[0,1,0,1],[1,1,0,0],[0,0,0,0],[0,1,1,1]]]从 sklearn.naive_bayes 导入 BernoulliNBclf = 伯努利NB()clf ..

发布时间：2021-12-25 14:51:53 python machine-learning scikit-learn AI人工智能

将列表转换为 numpy 数组

我设法使用命令行 sklearn 加载文件夹中的图像:load_sample_images() 我现在想将其转换为具有 float32 数据类型的 numpy.ndarray 格式我能够使用:np.array(X) 将它转换为 np.ndarray，但是 np.array(X, dtype=np.float32) 和 np.asarray(X).astype('float32') 给 ..

发布时间：2021-12-25 14:51:49 python numpy scikit-learn Python

使用交叉验证评估逻辑回归

我想使用交叉验证来测试/训练我的数据集并评估逻辑回归模型在整个数据集上的性能，而不仅仅是在测试集上(例如 25%). 这些概念对我来说是全新的，我不太确定我是否做得对.如果有人能就我出错的地方采取正确的步骤向我提出建议，我将不胜感激.我的部分代码如下所示. 此外，如何在当前图形的同一图形上绘制“y2"和“y3"的 ROC? 谢谢将pandas导入为pdData=pd.read ..

发布时间：2021-12-25 14:51:43 python scikit-learn logistic-regression cross-validation Python

如何使用 MinMaxScaler sklearn 规范化训练和测试数据

所以，我有这个疑问并一直在寻找答案.所以问题是当我使用时， from sklearn 导入预处理min_max_scaler = preprocessing.MinMaxScaler()df = pd.DataFrame({'A':[1,2,3,7,9,15,16,1,5,6,2,4,8,9],'B':[15,12,10,11,8,14,17,20,4,12,4,5,17,19],'C':['Y ..

发布时间：2021-12-25 14:51:23 python machine-learning scikit-learn normalization sklearn-pandas AI人工智能

如何使用 Scikit Learn 调整随机森林中的参数?

class sklearn.ensemble.RandomForestClassifier(n_estimators=10,标准='基尼'，最大深度=无，min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features='auto',max_leaf_nodes=无，引导=真，oob_score=假，n ..

发布时间：2021-12-25 14:51:14 python parameters machine-learning scikit-learn random-forest AI人工智能

在 sklearn 中保存 MinMaxScaler 模型

我在 sklearn 中使用 MinMaxScaler 模型来规范化模型的特征. training_set = np.random.rand(4,4)*10训练集[[ 6.01144787, 0.59753007, 2.0014852, 3.45433657],[ 6.03041646, 5.15589559, 6.64992437, 2.63440202],[ 2.27733136, 9.29 ..

发布时间：2021-12-25 14:51:07 python machine-learning scikit-learn normalization AI人工智能

sklearn 上的 PCA - 如何解释 pca.components_

我使用这个简单的代码在具有 10 个特征的数据帧上运行 PCA: pca = PCA()适合 = pca.fit(dfPca) pca.explained_variance_ratio_ 的结果显示: array([ 5.01173322e-01, 2.98421951e-01, 1.00968655e-01,4.28813755e-02、2.46887288e-02、1.40976609e ..

发布时间：2021-12-25 14:51:03 python math scikit-learn pca Python

如何查看安装了哪个版本的nltk、scikit learn?

在shell脚本中，我正在检查是否安装了这个包，如果没有安装则安装它.所以使用 shell 脚本: import nltkecho nltk.__version__ 但它会在 import 行处停止 shell 脚本在linux终端尝试以这种方式查看: which nltk 没有想到它已安装. 有没有其他方法可以在shell脚本中验证这个包的安装，如果没有安装，也安装一下. ..

发布时间：2021-12-25 14:50:55 python linux shell scikit-learn nltk 服务器开发

使用 scikit-learn 时，如何找到我的树分裂的属性?

我一直在探索 scikit-learn，使用熵和基尼分裂标准制作决策树，并探索差异. 我的问题是，我怎样才能“打开引擎盖"并确切地找出树在每个级别上分裂的属性以及它们的相关信息值，以便我可以看到两个标准在哪里做出不同的选择? 到目前为止，我已经探索了文档中概述的 9 种方法.他们似乎不允许访问此信息.但确定这些信息是可访问的吗?我正在设想一个包含节点和增益条目的列表或字典. 感谢 ..

发布时间：2021-12-25 14:50:46 python machine-learning scikit-learn decision-tree AI人工智能

如何在 scikit-learn 中的 tfidf 之后查看术语文档矩阵的前 n 个条目

我是 scikit-learn 的新手，我使用 TfidfVectorizer 在一组文档中查找术语的 tfidf 值.我使用以下代码获得相同的结果. vectorizer = TfidfVectorizer(stop_words=u'english',ngram_range=(1,5),lowercase=True)X = vectorizer.fit_transform(讲座) 现在如果我 ..

发布时间：2021-12-25 14:50:27 python numpy scikit-learn tf-idf top-n Python

ConvergenceWarning:lbfgs 未能收敛(状态 = 1):停止:总共没有.达到限制的迭代次数

我有一个由数字和分类数据组成的数据集，我想根据患者的医疗特征预测其不良结果.我为我的数据集定义了一个预测管道，如下所示: X = dataset.drop(columns=['target'])y = 数据集['目标']# 定义分类和数字转换器numeric_transformer = 流水线(步骤=[('knnImputer', KNNImputer(n_neighbors=2, weight ..

发布时间：2021-12-25 14:50:20 python machine-learning scikit-learn logistic-regression AI人工智能

Sklearn SGDClassifier 部分拟合

我正在尝试使用 SGD 对大型数据集进行分类.由于数据太大而无法放入内存，我想使用 partial_fit 方法来训练分类器.我选择了一个适合内存的数据集样本(100,000 行)来测试 fit 与 partial_fit: from sklearn.linear_model import SGDClassifier定义批次(l，n):对于 xrange(0, len(l), n) 中的 i:产 ..

发布时间：2021-12-25 14:50:14 python machine-learning scikit-learn gradient-descent AI人工智能

参数“分层"来自方法“train_test_split"；(scikit 学习)

我正在尝试使用 scikit Learn 包中的 train_test_split，但我在使用参数 stratify 时遇到问题.以下是代码: from sklearn import cross_validation, datasetsX = iris.data[:,:2]y = iris.targetcross_validation.train_test_split(X,y,stratify= ..

发布时间：2021-12-25 14:50:07 split scikit-learn training-data test-data 其他开发

我可以在 scikit-learn 中使用 CountVectorizer 来计算未用于提取标记的文档的频率吗?

我一直在使用 scikit-learn 中的 CountVectorizer 类. 我知道如果以下面所示的方式使用，最终输出将包含一个包含特征计数或标记的数组. 这些标记是从一组关键字中提取的，即标签 = [“蟒蛇，工具"，"linux, 工具, ubuntu",“分布式系统、Linux、网络、工具"，] 下一步是: from sklearn.feature_extractio ..

发布时间：2021-12-25 14:49:59 python machine-learning scikit-learn tf-idf AI人工智能

如何在 scikit-learn 中预测时间序列?

Scikit-learn 使用了一种基于 fit 和 predict 方法的非常方便的方法.我有适合 fit 和 predict 格式的时间序列数据. 例如我有以下 Xs: [[1.0, 2.3, 4.5], [6.7, 2.7, 1.2], ..., [3.2, 4.7, 1.1]] 和对应的ys: [[1.0], [2.3], ..., [7.7]] 这些数据的含义如下.ys 中 ..

发布时间：2021-12-25 14:49:51 python machine-learning time-series scikit-learn AI人工智能

scikit-learn相关内容