scikit-learn相关内容

sklearn.preprocessing中standardscaler和Normalizer之间的区别

sklearn.preprocessing模块中standardscaler和normalizer有什么区别? 两者不都做同一件事吗?即使用偏差删除均值和量表? 解决方案 来自规范化工具文档: 具有至少一个非零分量的每个样本(即数据矩阵的每一行)都独立于其他样本进行重新缩放,以使其范数(l1或l2)等于1. 和 StandardScaler 通过去除均值并缩放到单位方差来 ..
发布时间:2020-05-04 09:07:31 AI人工智能

Python非负矩阵分解可同时处理零和缺失数据吗?

我正在寻找一个具有python接口的NMF实现,它可以处理丢失的数据和零. 在启动分解之前,我不想插入缺失的值,我希望在最小化函数中忽略它们. 似乎scikit-learn,nimfa,graphlab和mahout都没有提出这样的选择. 谢谢! 解决方案 使用此 Matlab至python代码转换表我能够从 Matlab工具箱库中重写NMF. 我不得不分解稀疏度为0. ..

PCA是否具有分类功能?

据我了解,我认为PCA仅可用于连续功能.但是,在尝试了解onehot编码和标签编码之间的区别时,是通过以下链接中的帖子获得的: 何时使用一次热编码与LabelEncoder与DictVectorizo​​r? 它指出,在PCA之后进行热编码是一种非常好的方法,这基本上意味着PCA已应用于分类特征. 因此感到困惑,请在同一位置建议我. 解决方案 我不同意其他观点. 您可以在 ..
发布时间:2020-05-04 09:07:11 AI人工智能

如何在sklearn中编码分类变量?

我正在尝试使用UCI存储库中的汽车评估数据集,我想知道是否存在方便的方法来对sklearn中的分类变量进行二值化.一种方法是使用LabelBinarizer的DictVectorizer,但在这里我得到了k个不同的特征,而为了避免共线性化,您应该只有k-1个. 我想我可以编写自己的函数并删除一列,但这种簿记工作很繁琐,是否有一种简单的方法来执行此类转换并因此获得稀疏矩阵? 解决方案 Dic ..
发布时间:2020-05-04 09:07:04 AI人工智能

评估sklearn cross_val_score的多个分数

我正在尝试使用sklearn评估多种机器学习算法,以评估几个指标(准确性,召回率,精度,甚至更多). 根据我在文档此处和源代码的理解(我使用的是sklearn 0.17), cross_val_score 函数每次执行仅接收一个计分器.因此,要计算多个分数,我必须: 多次执行 实施我的(耗时且容易出错的)计分器 我已经用此代码执行了多次: from sklearn.s ..
发布时间:2020-05-04 09:06:00 AI人工智能

使用scikit-learn时,如何查找树拆分的属性?

我一直在探索scikit-learn,制作具有熵和基尼分裂准则的决策树,并探索其中的差异. 我的问题是,如何才能“打开引擎盖"并准确找出树木在每个级别上划分的属性及其相关的信息值,以便我可以看到这两个标准在何处做出不同的选择? /p> 到目前为止,我已经探索了文档中概述的9种方法.他们似乎不允许访问此信息.但是肯定可以访问此信息吗?我正在构想一个列表或字典,其中包含用于节点和增益的条目. ..
发布时间:2020-05-04 09:05:40 AI人工智能

我可以在scikit-learn中使用CountVectorizer来计数未用于提取令牌的文档的频率吗?

我一直在使用scikit-learn中的CountVectorizer类. 我知道,如果按照以下所示的方式使用,则最终输出将由一个包含特征或标记计数的数组组成. 这些令牌是从一组关键字中提取的,即 tags = [ "python, tools", "linux, tools, ubuntu", "distributed systems, linux, network ..
发布时间:2020-05-04 09:05:15 AI人工智能

预测sklearn中的训练数据

我像这样使用scikit-learn的SVM: clf = svm.SVC() clf.fit(td_X, td_y) 我的问题是,当我使用分类器预测训练集成员的班级时,即使在scikit-learns实现中,分类器也可能是错误的. (例如clf.predict(td_X[a])==td_Y[a]) 解决方案 是的,请运行以下代码,例如: from sklearn imp ..
发布时间:2020-05-04 09:04:48 AI人工智能

GridSearchCV最终模型

如果我在scikit-learn库中使用GridSearchCV查找最佳模型,它将返回的最终模型是什么?也就是说,对于每组超参数,我们训练CV模型(例如3个)的数量.这样,函数将返回这三个模型中的最佳模型以获得最佳参数设置吗? 解决方案 GridSearchCV将返回具有很多信息的对象.确实会返回在剩余数据上表现最佳的模型: best_estimator_:估计量或字典 通过搜 ..
发布时间:2020-05-04 09:04:40 AI人工智能

Sklearn 0.20+的交叉验证?

我正在尝试进行交叉验证,但遇到一个错误:“找到的样本数量不一致的输入变量:[18,1]" 我将熊猫数据框(df)中的不同列用作功能,最后一列用作标签.这源自UC Irvine的机器学习存储库.导入我过去使用过的交叉验证程序包时,出现错误,提示它可能已贬值.我将运行决策树,SVM和K-NN. 我的代码如下: feature = [df['age'], df['job'], df[' ..

如何使用Python和sklearn编写多元对数回归?

我写了一个用于多元多项式回归的代码,我使用了sklearn的多项式特征和变换函数.是否可以进行多元对数回归? sklearn是否像对多项式特征一样具有某种对数转换? 如何在python中编写多元对数回归? 这是我的多元多项式特征代码: import numpy as np import pandas as pd import math import xlrd from sklearn ..
发布时间:2020-05-04 09:04:16 AI人工智能