scikit-learn 第122页 - IT屋-程序员软件开发技术分享社区

cross_val_score和cross_val_predict之间的区别

我想使用交叉验证评估使用scikitlearn构建的回归模型并感到困惑，我应该使用两个函数cross_val_score和cross_val_predict中的哪个. 一种选择是: cvs = DecisionTreeRegressor(max_depth = depth) scores = cross_val_score(cvs, predictors, target, cv=cvfold ..

发布时间：2020-05-04 09:07:36 python machine-learning scikit-learn regression cross-validation AI人工智能

sklearn.preprocessing中standardscaler和Normalizer之间的区别

sklearn.preprocessing模块中standardscaler和normalizer有什么区别? 两者不都做同一件事吗?即使用偏差删除均值和量表? 解决方案来自规范化工具文档: 具有至少一个非零分量的每个样本(即数据矩阵的每一行)都独立于其他样本进行重新缩放，以使其范数(l1或l2)等于1. 和 StandardScaler 通过去除均值并缩放到单位方差来 ..

发布时间：2020-05-04 09:07:31 machine-learning statistics scikit-learn AI人工智能

如何在clf.predict_proba()中找到相应的类

我有许多类和相应的特征向量，当我运行Forecast_proba()时，我会得到这个: classes = ['one','two','three','one','three'] feature = [[0,1,1,0],[0,1,0,1],[1,1,0,0],[0,0,0,0],[0,1,1,1]] from sklearn.naive_bayes import BernoulliNB ..

发布时间：2020-05-04 09:07:29 python machine-learning scikit-learn AI人工智能

Python非负矩阵分解可同时处理零和缺失数据吗?

我正在寻找一个具有python接口的NMF实现，它可以处理丢失的数据和零. 在启动分解之前，我不想插入缺失的值，我希望在最小化函数中忽略它们. 似乎scikit-learn，nimfa，graphlab和mahout都没有提出这样的选择. 谢谢！解决方案使用此 Matlab至python代码转换表我能够从 Matlab工具箱库中重写NMF. 我不得不分解稀疏度为0. ..

发布时间：2020-05-04 09:07:24 python machine-learning scikit-learn collaborative-filtering matrix-factorization AI人工智能

PCA是否具有分类功能?

据我了解，我认为PCA仅可用于连续功能.但是，在尝试了解onehot编码和标签编码之间的区别时，是通过以下链接中的帖子获得的: 何时使用一次热编码与LabelEncoder与DictVectorizor? 它指出，在PCA之后进行热编码是一种非常好的方法，这基本上意味着PCA已应用于分类特征. 因此感到困惑，请在同一位置建议我. 解决方案我不同意其他观点. 您可以在 ..

发布时间：2020-05-04 09:07:11 python machine-learning scikit-learn data-mining AI人工智能

如何使用MinMaxScaler sklearn归一化训练和测试数据

所以，我对此有疑问，一直在寻找答案.所以问题是我何时使用 from sklearn import preprocessing min_max_scaler = preprocessing.MinMaxScaler() df = pd.DataFrame({'A':[1,2,3,7,9,15,16,1,5,6,2,4,8,9],'B':[15,12,10,11,8,14,17,20,4,12 ..

发布时间：2020-05-04 09:07:07 python machine-learning scikit-learn normalization sklearn-pandas AI人工智能

如何在sklearn中编码分类变量?

我正在尝试使用UCI存储库中的汽车评估数据集，我想知道是否存在方便的方法来对sklearn中的分类变量进行二值化.一种方法是使用LabelBinarizer的DictVectorizer，但在这里我得到了k个不同的特征，而为了避免共线性化，您应该只有k-1个. 我想我可以编写自己的函数并删除一列，但这种簿记工作很繁琐，是否有一种简单的方法来执行此类转换并因此获得稀疏矩阵? 解决方案 Dic ..

发布时间：2020-05-04 09:07:04 python machine-learning scikit-learn AI人工智能

scikit-learn:如何缩减"y"预测结果

我正在尝试通过使用Boston Housing数据集学习scikit-learn和机器学习. # I splitted the initial dataset ('housing_X' and 'housing_y') from sklearn.cross_validation import train_test_split X_train, X_test, y_train, y_test ..

发布时间：2020-05-04 09:06:54 python machine-learning scikit-learn scale AI人工智能

在sklearn中保存MinMaxScaler模型

我正在sklearn中使用MinMaxScaler模型来规范模型的功能. training_set = np.random.rand(4,4)*10 training_set [[ 6.01144787, 0.59753007, 2.0014852 , 3.45433657], [ 6.03041646, 5.15589559, 6.64992437, ..

发布时间：2020-05-04 09:06:50 python machine-learning scikit-learn normalization AI人工智能

如何使用Scikit Learn在Random Forest中调整参数?

class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=None, ..

发布时间：2020-05-04 09:06:35 python parameters machine-learning scikit-learn random-forest AI人工智能

评估sklearn cross_val_score的多个分数

我正在尝试使用sklearn评估多种机器学习算法，以评估几个指标(准确性，召回率，精度，甚至更多). 根据我在文档此处和源代码的理解(我使用的是sklearn 0.17)， cross_val_score 函数每次执行仅接收一个计分器.因此，要计算多个分数，我必须: 多次执行实施我的(耗时且容易出错的)计分器我已经用此代码执行了多次: from sklearn.s ..

发布时间：2020-05-04 09:06:00 python machine-learning scikit-learn AI人工智能

如何解决Python sklearn随机森林中的过拟合问题?

我正在使用在python sklearn包中实现的RandomForestClassifier构建二进制分类模型.以下是交叉验证的结果: Fold 1 : Train: 164 Test: 40 Train Accuracy: 0.914634146341 Test Accuracy: 0.55 Fold 2 : Train: 163 Test: 41 Train Accuracy: ..

发布时间：2020-05-04 09:05:54 python machine-learning scikit-learn decision-tree random-forest AI人工智能

使用scikit-learn时，如何查找树拆分的属性?

我一直在探索scikit-learn，制作具有熵和基尼分裂准则的决策树，并探索其中的差异. 我的问题是，如何才能“打开引擎盖"并准确找出树木在每个级别上划分的属性及其相关的信息值，以便我可以看到这两个标准在何处做出不同的选择? /p> 到目前为止，我已经探索了文档中概述的9种方法.他们似乎不允许访问此信息.但是肯定可以访问此信息吗?我正在构想一个列表或字典，其中包含用于节点和增益的条目. ..

发布时间：2020-05-04 09:05:40 python machine-learning scikit-learn decision-tree AI人工智能

Sklearn SGDClassifier部分拟合

我正在尝试使用SGD对大型数据集进行分类.由于数据太大而无法放入内存，因此我想使用 partial_fit 方法来训练分类器.我选择了适合内存的数据集样本(100,000行)来测试 fit 与 partial_fit : from sklearn.linear_model import SGDClassifier def batches(l, n): for i in xrange ..

发布时间：2020-05-04 09:05:34 python machine-learning scikit-learn gradient-descent AI人工智能

我可以在scikit-learn中使用CountVectorizer来计数未用于提取令牌的文档的频率吗?

我一直在使用scikit-learn中的CountVectorizer类. 我知道，如果按照以下所示的方式使用，则最终输出将由一个包含特征或标记计数的数组组成. 这些令牌是从一组关键字中提取的，即 tags = [ "python, tools", "linux, tools, ubuntu", "distributed systems, linux, network ..

发布时间：2020-05-04 09:05:15 python machine-learning scikit-learn tf-idf AI人工智能

预测sklearn中的训练数据

我像这样使用scikit-learn的SVM: clf = svm.SVC() clf.fit(td_X, td_y) 我的问题是，当我使用分类器预测训练集成员的班级时，即使在scikit-learns实现中，分类器也可能是错误的. (例如clf.predict(td_X[a])==td_Y[a]) 解决方案是的，请运行以下代码，例如: from sklearn imp ..

发布时间：2020-05-04 09:04:48 python machine-learning scikit-learn svm AI人工智能

GridSearchCV最终模型

如果我在scikit-learn库中使用GridSearchCV查找最佳模型，它将返回的最终模型是什么?也就是说，对于每组超参数，我们训练CV模型(例如3个)的数量.这样，函数将返回这三个模型中的最佳模型以获得最佳参数设置吗? 解决方案 GridSearchCV将返回具有很多信息的对象.确实会返回在剩余数据上表现最佳的模型: best_estimator_:估计量或字典通过搜 ..

发布时间：2020-05-04 09:04:40 python machine-learning scikit-learn AI人工智能

Sklearn 0.20+的交叉验证?

我正在尝试进行交叉验证，但遇到一个错误:“找到的样本数量不一致的输入变量:[18，1]" 我将熊猫数据框(df)中的不同列用作功能，最后一列用作标签.这源自UC Irvine的机器学习存储库.导入我过去使用过的交叉验证程序包时，出现错误，提示它可能已贬值.我将运行决策树，SVM和K-NN. 我的代码如下: feature = [df['age'], df['job'], df[' ..

发布时间：2020-05-04 09:04:20 python machine-learning scikit-learn cross-validation sklearn-pandas AI人工智能

如何使用Python和sklearn编写多元对数回归?

我写了一个用于多元多项式回归的代码，我使用了sklearn的多项式特征和变换函数.是否可以进行多元对数回归? sklearn是否像对多项式特征一样具有某种对数转换? 如何在python中编写多元对数回归? 这是我的多元多项式特征代码: import numpy as np import pandas as pd import math import xlrd from sklearn ..

发布时间：2020-05-04 09:04:16 python machine-learning scikit-learn regression AI人工智能

NotFittedError:TfidfVectorizer-词汇不正确

我正在尝试使用scikit-learn/pandas构建情感分析器.建立和评估模型是可行的，但是尝试对新的示例文本进行分类则无法. 我的代码: import csv import pandas as pd import numpy as np from sklearn.model_selection import train_test_split from sklearn.featur ..

发布时间：2020-05-04 09:03:58 python machine-learning scikit-learn AI人工智能

scikit-learn相关内容