scikit-learn相关内容

谁能向我解释StandardScaler?

我无法理解 sklearn文档中StandardScaler的页面. 有人可以简单地向我解释一下吗? 解决方案 StandardScaler背后的想法是,它将转换您的数据,使其分布的平均值为0,标准差为1. 对于多变量数据,这是按功能进行的(换句话说,独立于数据的每一列). 在给定数据分布的情况下,数据集中的每个值都将减去平均值,然后除以整个数据集(或多变量情况下的特征)的标准差 ..

sklearn.model_selection.train_test_split出现Python错误:ValueError:找到输入数据的样本数不一致:[416858,398427]

我的标签数量与样本数量不匹配,因此我认为解决方案是删除一些样本数据,但总体而言,这不是一个好习惯. 这是我的代码: X = np.loadtxt('/Users/myname/PycharmProjects/my_project/X.txt') y = np.loadtxt('/Users/myname/PycharmProjects/my_project/y.txt') print ..
发布时间:2020-05-04 09:22:19 AI人工智能

导出机器学习模型

我正在创建一种机器学习算法,并希望将其导出. 假设我正在使用scikit学习库和随机森林算法. modelC=RandomForestClassifier(n_estimators=30) m=modelC.fit(trainvec,yvec) modelC.model 我如何导出它或有任何功能? 解决方案 如果您遵循scikit 关于模型持久性的文档 In [1 ..
发布时间:2020-05-04 09:22:04 AI人工智能

使用带有scikit学习的高斯混合模型进行多类分类

我正在尝试使用 sklearn.mixture.GaussianMixture 对高光谱图像中的像素进行分类.有15个课程(1-15).我尝试使用方法 http://scikit-learn.org/stable/auto_examples /mixture/plot_gmm_covariances.html .在这里,均值是用means_init初始化的,我也尝试过这样做,但是我的准确性很差(大 ..

递归功能选择可能不会产生更高的性能吗?

我正试图分析以下数据,先通过逻辑回归对其进行建模,然后进行预测,然后计算出准确度& auc;然后执行递归特征选择并计算出准确度&再一次,auc认为精度和auc会更高,但实际上在选择了递归特征后它们都较低,不确定是否可以预期吗?还是我错过了什么?谢谢! 数据: https://github.com/amandawang-dev/census-training/blob/master/censu ..

sklearn partial_fit()未显示准确的结果为fit()

我正在训练数据L1,L2,L3的3个列表.首先,我使用SGDClassifier fit()训练所有一个,然后使用partial_fit()实例进行训练.我用L4,L5测试数据. [列表中的数据是图像数据,L4,L5图像与L2相同. fit()的预测是正确的,这是我对partial_fit()的期望.但是,以下代码的输出显示,无论partial_fit()进行10,000次迭代,两者的行为都 ..
发布时间:2020-05-04 09:20:37 AI人工智能

如何处理大熊猫的归因和热编码?

我正在尝试对数据集应用插补和热编码.我知道在应用归因时,数据的维度可能会发生变化,因此我会手动进行处理.该模型运行良好,但后来我决定应用热门编码.现在,该程序无法编译.我遇到尺寸不匹配错误. test_X = pd.get_dummies(test) train_X = pd.get_dummies(train) col_with_missingVal = (col for col in ..
发布时间:2020-05-04 09:20:18 AI人工智能

处理,准备词袋数据以进行回归

我正在尝试创建一个预测作者年龄的回归模型.我以(Nguyen et al,2011)为基础. 使用一袋单词模型,我计算每个文档中单词的出现次数(这些单词是来自董事会的帖子),并为每个帖子创建向量. 我通过使用最常用的前k个(k =数字)个词(不使用停用词)来限制每个向量的大小 Vectorexample_with_k_8 = [0,0,0,1,0,3,0,0] 我的数据通常像 ..
发布时间:2020-05-04 09:20:08 AI人工智能

如何使用张量流进行文本分类?

我是Tensorflow和机器学习的新手.我在编写一个tensorflow代码时遇到了问题,该代码的文本分类类似于我使用sklearn库尝试的文本分类.我在对数据集进行矢量化并将输入提供给tensorflow层时遇到了主要问题. 我确实记得在一次热编码标签上成功,但是前面的tensorflow层不接受创建的数组. 请注意,我已经阅读了大多数关于stackoverflow的文字分类问题,但是它 ..

如何显示混淆矩阵和每个交叉验证折叠的报告(召回率,精度,fmeasure)

我正在尝试在python中执行10折交叉验证.我知道如何计算混淆矩阵和分割测试报告(例如分割80%训练和20%测试).但是问题是我不知道如何计算混淆矩阵并为每个折页生成报告,例如当10折时,我只知道平均准确度的代码. 解决方案 为简单起见,这里有一个可复制的示例,其中包含乳腺癌数据和3倍CV: from sklearn.datasets import load_breast_canc ..

如何使用与其他两列匹配的python填充数据集中的空值?

我有一个巨大的数据集.它具有属性,我在努力工作 1.年龄 2.Embark(从那里登上港口的旅客.共有3个港口:S,Q和C) 3.Survived(0表示没有幸存,1表示没有幸存) 我正在过滤无用的数据.然后,我需要填写Age中存在的Null值.因此,我计算了每个登机区中幸存和未幸存的乘客数量,即S,Q和C 我找出从每个S,Q和C港口出发后幸存和未幸存的乘客的平均年龄.但是现在我不知道 ..

scikit学习DecisionTreeClassifier.tree_.value有什么作用?

我正在研究DecisionTreeClassifier模型,我想了解模型选择的路径.所以我需要知道 是什么值 DecisionTreeClassifier.tree_.value 谢谢 解决方案 您是正确的,因为该文档实际上对此并不了解(但是,老实说,我也不确定它的用处). 让我们从文档中的示例复制虹膜数据: from sklearn.datasets import lo ..
发布时间:2020-05-04 09:19:21 AI人工智能

sklearn中的留一法交叉验证的ROC曲线

我想使用留一法交叉验证绘制分类器的 ROC曲线. 似乎已经问过类似的问题在另一个问题中,在这里被声明: 为了通过LeaveOneOut获得有意义的ROC AUC,您需要 计算每个折的概率估计(每个折仅由 一个观察值),然后根据所有这些计算出ROC AUC 概率估计. 此外,在scikit-learn官方网站上有一个类似的示例,但使用KFold交叉验证( 所以对于留一法交叉验证案 ..
发布时间:2020-05-04 09:19:19 AI人工智能