scikit-learn相关内容
我想使用交叉验证评估使用scikitlearn构建的回归模型并感到困惑,我应该使用两个函数cross_val_score和cross_val_predict中的哪个. 一种选择是: cvs = DecisionTreeRegressor(max_depth = depth) scores = cross_val_score(cvs, predictors, target, cv=cvfold
..
sklearn.preprocessing模块中standardscaler和normalizer有什么区别? 两者不都做同一件事吗?即使用偏差删除均值和量表? 解决方案 来自规范化工具文档: 具有至少一个非零分量的每个样本(即数据矩阵的每一行)都独立于其他样本进行重新缩放,以使其范数(l1或l2)等于1. 和 StandardScaler 通过去除均值并缩放到单位方差来
..
我有许多类和相应的特征向量,当我运行Forecast_proba()时,我会得到这个: classes = ['one','two','three','one','three'] feature = [[0,1,1,0],[0,1,0,1],[1,1,0,0],[0,0,0,0],[0,1,1,1]] from sklearn.naive_bayes import BernoulliNB
..
我正在寻找一个具有python接口的NMF实现,它可以处理丢失的数据和零. 在启动分解之前,我不想插入缺失的值,我希望在最小化函数中忽略它们. 似乎scikit-learn,nimfa,graphlab和mahout都没有提出这样的选择. 谢谢! 解决方案 使用此 Matlab至python代码转换表我能够从 Matlab工具箱库中重写NMF. 我不得不分解稀疏度为0.
..
据我了解,我认为PCA仅可用于连续功能.但是,在尝试了解onehot编码和标签编码之间的区别时,是通过以下链接中的帖子获得的: 何时使用一次热编码与LabelEncoder与DictVectorizor? 它指出,在PCA之后进行热编码是一种非常好的方法,这基本上意味着PCA已应用于分类特征. 因此感到困惑,请在同一位置建议我. 解决方案 我不同意其他观点. 您可以在
..
所以,我对此有疑问,一直在寻找答案.所以问题是我何时使用 from sklearn import preprocessing min_max_scaler = preprocessing.MinMaxScaler() df = pd.DataFrame({'A':[1,2,3,7,9,15,16,1,5,6,2,4,8,9],'B':[15,12,10,11,8,14,17,20,4,12
..
我正在尝试使用UCI存储库中的汽车评估数据集,我想知道是否存在方便的方法来对sklearn中的分类变量进行二值化.一种方法是使用LabelBinarizer的DictVectorizer,但在这里我得到了k个不同的特征,而为了避免共线性化,您应该只有k-1个. 我想我可以编写自己的函数并删除一列,但这种簿记工作很繁琐,是否有一种简单的方法来执行此类转换并因此获得稀疏矩阵? 解决方案 Dic
..
我正在尝试通过使用Boston Housing数据集学习scikit-learn和机器学习. # I splitted the initial dataset ('housing_X' and 'housing_y') from sklearn.cross_validation import train_test_split X_train, X_test, y_train, y_test
..
我正在sklearn中使用MinMaxScaler模型来规范模型的功能. training_set = np.random.rand(4,4)*10 training_set [[ 6.01144787, 0.59753007, 2.0014852 , 3.45433657], [ 6.03041646, 5.15589559, 6.64992437,
..
class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=None,
..
我正在尝试使用sklearn评估多种机器学习算法,以评估几个指标(准确性,召回率,精度,甚至更多). 根据我在文档此处和源代码的理解(我使用的是sklearn 0.17), cross_val_score 函数每次执行仅接收一个计分器.因此,要计算多个分数,我必须: 多次执行 实施我的(耗时且容易出错的)计分器 我已经用此代码执行了多次: from sklearn.s
..
我正在使用在python sklearn包中实现的RandomForestClassifier构建二进制分类模型.以下是交叉验证的结果: Fold 1 : Train: 164 Test: 40 Train Accuracy: 0.914634146341 Test Accuracy: 0.55 Fold 2 : Train: 163 Test: 41 Train Accuracy:
..
我一直在探索scikit-learn,制作具有熵和基尼分裂准则的决策树,并探索其中的差异. 我的问题是,如何才能“打开引擎盖"并准确找出树木在每个级别上划分的属性及其相关的信息值,以便我可以看到这两个标准在何处做出不同的选择? /p> 到目前为止,我已经探索了文档中概述的9种方法.他们似乎不允许访问此信息.但是肯定可以访问此信息吗?我正在构想一个列表或字典,其中包含用于节点和增益的条目.
..
我正在尝试使用SGD对大型数据集进行分类.由于数据太大而无法放入内存,因此我想使用 partial_fit 方法来训练分类器.我选择了适合内存的数据集样本(100,000行)来测试 fit 与 partial_fit : from sklearn.linear_model import SGDClassifier def batches(l, n): for i in xrange
..
我一直在使用scikit-learn中的CountVectorizer类. 我知道,如果按照以下所示的方式使用,则最终输出将由一个包含特征或标记计数的数组组成. 这些令牌是从一组关键字中提取的,即 tags = [ "python, tools", "linux, tools, ubuntu", "distributed systems, linux, network
..
我像这样使用scikit-learn的SVM: clf = svm.SVC() clf.fit(td_X, td_y) 我的问题是,当我使用分类器预测训练集成员的班级时,即使在scikit-learns实现中,分类器也可能是错误的. (例如clf.predict(td_X[a])==td_Y[a]) 解决方案 是的,请运行以下代码,例如: from sklearn imp
..
如果我在scikit-learn库中使用GridSearchCV查找最佳模型,它将返回的最终模型是什么?也就是说,对于每组超参数,我们训练CV模型(例如3个)的数量.这样,函数将返回这三个模型中的最佳模型以获得最佳参数设置吗? 解决方案 GridSearchCV将返回具有很多信息的对象.确实会返回在剩余数据上表现最佳的模型: best_estimator_:估计量或字典 通过搜
..
我正在尝试进行交叉验证,但遇到一个错误:“找到的样本数量不一致的输入变量:[18,1]" 我将熊猫数据框(df)中的不同列用作功能,最后一列用作标签.这源自UC Irvine的机器学习存储库.导入我过去使用过的交叉验证程序包时,出现错误,提示它可能已贬值.我将运行决策树,SVM和K-NN. 我的代码如下: feature = [df['age'], df['job'], df['
..
我写了一个用于多元多项式回归的代码,我使用了sklearn的多项式特征和变换函数.是否可以进行多元对数回归? sklearn是否像对多项式特征一样具有某种对数转换? 如何在python中编写多元对数回归? 这是我的多元多项式特征代码: import numpy as np import pandas as pd import math import xlrd from sklearn
..
我正在尝试使用scikit-learn/pandas构建情感分析器.建立和评估模型是可行的,但是尝试对新的示例文本进行分类则无法. 我的代码: import csv import pandas as pd import numpy as np from sklearn.model_selection import train_test_split from sklearn.featur
..