scikit-learn 第118页 - IT屋-程序员软件开发技术分享社区

谁能向我解释StandardScaler?

我无法理解 sklearn文档中StandardScaler的页面. 有人可以简单地向我解释一下吗? 解决方案 StandardScaler背后的想法是，它将转换您的数据，使其分布的平均值为0，标准差为1. 对于多变量数据，这是按功能进行的(换句话说，独立于数据的每一列). 在给定数据分布的情况下，数据集中的每个值都将减去平均值，然后除以整个数据集(或多变量情况下的特征)的标准差 ..

发布时间：2020-05-04 09:22:37 python machine-learning scikit-learn scaling standardized AI人工智能

sklearn.model_selection.train_test_split出现Python错误:ValueError:找到输入数据的样本数不一致:[416858，398427]

我的标签数量与样本数量不匹配，因此我认为解决方案是删除一些样本数据，但总体而言，这不是一个好习惯. 这是我的代码: X = np.loadtxt('/Users/myname/PycharmProjects/my_project/X.txt') y = np.loadtxt('/Users/myname/PycharmProjects/my_project/y.txt') print ..

发布时间：2020-05-04 09:22:19 python numpy machine-learning scikit-learn AI人工智能

导出机器学习模型

我正在创建一种机器学习算法，并希望将其导出. 假设我正在使用scikit学习库和随机森林算法. modelC=RandomForestClassifier(n_estimators=30) m=modelC.fit(trainvec,yvec) modelC.model 我如何导出它或有任何功能? 解决方案如果您遵循scikit 关于模型持久性的文档 In [1 ..

发布时间：2020-05-04 09:22:04 python python-2.7 machine-learning scikit-learn AI人工智能

我正在尝试使用 sklearn.mixture.GaussianMixture 对高光谱图像中的像素进行分类.有15个课程(1-15).我尝试使用方法 http://scikit-learn.org/stable/auto_examples /mixture/plot_gmm_covariances.html .在这里，均值是用means_init初始化的，我也尝试过这样做，但是我的准确性很差(大 ..

发布时间：2020-05-04 09:21:45 python machine-learning scikit-learn classification gmm AI人工智能

如何为新的训练模型初始化coef_init和intercept_init?

如此处指定， https://stackoverflow.com/a/35662770/5757129 ，我存储了截取我的第一个模型.稍后，我将它们作为初始值设定项传递给我的第二个fit()，如下所示，以便在旧模型之上学习新数据. from sklearn import neighbors, linear_model import numpy as np import pickle impo ..

发布时间：2020-05-04 09:21:30 python machine-learning scikit-learn AI人工智能

ValueError:无法将字符串转换为浮点数-机器学习

我正在研究一个机器学习项目，以确定PCAP是否是攻击，我必须处理PCAP文件并创建模型然后进行预测. 我的代码的一部分是这样的: train['is_train'] = np.random.uniform(0, 1, len(train)) ..

发布时间：2020-05-04 09:21:26 python machine-learning scikit-learn AI人工智能

使用Mutual_info回归进行特征选择时重塑错误

我正在尝试使用带有SelectKBest包装器的common_info_regression进行某些功能选择.但是，我一直遇到错误，指示我的功能列表需要重塑为2D数组，但不确定为什么我会不断收到此消息- #feature selection before linear regression benchmark test import sklearn from sklearn.feature_ ..

发布时间：2020-05-04 09:21:02 python machine-learning scikit-learn feature-selection AI人工智能

递归功能选择可能不会产生更高的性能吗?

我正试图分析以下数据，先通过逻辑回归对其进行建模，然后进行预测，然后计算出准确度& auc;然后执行递归特征选择并计算出准确度&再一次，auc认为精度和auc会更高，但实际上在选择了递归特征后它们都较低，不确定是否可以预期吗?还是我错过了什么?谢谢！数据: https://github.com/amandawang-dev/census-training/blob/master/censu ..

发布时间：2020-05-04 09:20:46 python machine-learning scikit-learn feature-selection AI人工智能

sklearn partial_fit()未显示准确的结果为fit()

我正在训练数据L1，L2，L3的3个列表.首先，我使用SGDClassifier fit()训练所有一个，然后使用partial_fit()实例进行训练.我用L4，L5测试数据. [列表中的数据是图像数据，L4，L5图像与L2相同. fit()的预测是正确的，这是我对partial_fit()的期望.但是，以下代码的输出显示，无论partial_fit()进行10,000次迭代，两者的行为都 ..

发布时间：2020-05-04 09:20:37 python machine-learning scikit-learn data-science AI人工智能

如何在Sklearn中获得Roc Auc进行二进制分类

我有二进制分类问题，我想计算结果的roc_auc.为此，我使用sklearn以两种不同的方式进行了处理.我的代码如下. 代码1: from sklearn.metrics import make_scorer from sklearn.metrics import roc_auc_score myscore = make_scorer(roc_auc_score, needs_pro ..

发布时间：2020-05-04 09:20:34 python machine-learning scikit-learn cross-validation roc AI人工智能

k个最近邻，对准确性得分和混淆矩阵进行交叉验证

我有以下数据，其中对于每一列，带有数字的行是输入，而字母是输出. A,A,A,B,B,B -0.979090189,0.338819904,-0.253746508,0.213454999,-0.580601104,-0.441683968 -0.48395313,0.436456904,-1.427424032,-0.107093825,0.320813402,0.060866105 -1 ..

发布时间：2020-05-04 09:20:31 python pandas machine-learning scikit-learn cross-validation AI人工智能

使用PassiveAggressiveClassifier的partial_fit在Scikit中进行增量学习

我正在尝试在以下脚本中使用TfidVectorizer和partial_fit技术训练PassiveAggressiveClassifier: 代码已更新: a, ta = [], [] r, tr = [], [] g = [] vect = HashingVectorizer(ngram_range=(1,4)) model = PassiveAggressiveClassifi ..

发布时间：2020-05-04 09:20:29 machine-learning scikit-learn AI人工智能

如何处理大熊猫的归因和热编码?

我正在尝试对数据集应用插补和热编码.我知道在应用归因时，数据的维度可能会发生变化，因此我会手动进行处理.该模型运行良好，但后来我决定应用热门编码.现在，该程序无法编译.我遇到尺寸不匹配错误. test_X = pd.get_dummies(test) train_X = pd.get_dummies(train) col_with_missingVal = (col for col in ..

发布时间：2020-05-04 09:20:18 python pandas machine-learning scikit-learn AI人工智能

处理，准备词袋数据以进行回归

我正在尝试创建一个预测作者年龄的回归模型.我以(Nguyen et al，2011)为基础. 使用一袋单词模型，我计算每个文档中单词的出现次数(这些单词是来自董事会的帖子)，并为每个帖子创建向量. 我通过使用最常用的前k个(k =数字)个词(不使用停用词)来限制每个向量的大小 Vectorexample_with_k_8 = [0,0,0,1,0,3,0,0] 我的数据通常像 ..

发布时间：2020-05-04 09:20:08 python text machine-learning scikit-learn regression AI人工智能

如何使用张量流进行文本分类?

我是Tensorflow和机器学习的新手.我在编写一个tensorflow代码时遇到了问题，该代码的文本分类类似于我使用sklearn库尝试的文本分类.我在对数据集进行矢量化并将输入提供给tensorflow层时遇到了主要问题. 我确实记得在一次热编码标签上成功，但是前面的tensorflow层不接受创建的数组. 请注意，我已经阅读了大多数关于stackoverflow的文字分类问题，但是它 ..

发布时间：2020-05-04 09:20:05 python tensorflow machine-learning scikit-learn text-classification AI人工智能

如何显示混淆矩阵和每个交叉验证折叠的报告(召回率，精度，fmeasure)

我正在尝试在python中执行10折交叉验证.我知道如何计算混淆矩阵和分割测试报告(例如分割80％训练和20％测试).但是问题是我不知道如何计算混淆矩阵并为每个折页生成报告，例如当10折时，我只知道平均准确度的代码. 解决方案为简单起见，这里有一个可复制的示例，其中包含乳腺癌数据和3倍CV: from sklearn.datasets import load_breast_canc ..

发布时间：2020-05-04 09:20:03 python machine-learning scikit-learn cross-validation confusion-matrix AI人工智能

如何使用与其他两列匹配的python填充数据集中的空值?

我有一个巨大的数据集.它具有属性，我在努力工作 1.年龄 2.Embark(从那里登上港口的旅客.共有3个港口:S，Q和C) 3.Survived(0表示没有幸存，1表示没有幸存) 我正在过滤无用的数据.然后，我需要填写Age中存在的Null值.因此，我计算了每个登机区中幸存和未幸存的乘客数量，即S，Q和C 我找出从每个S，Q和C港口出发后幸存和未幸存的乘客的平均年龄.但是现在我不知道 ..

发布时间：2020-05-04 09:19:54 python pandas machine-learning scikit-learn missing-data AI人工智能

如何使用matplotlib绘制Kmeans文本聚类结果?

我有以下代码将一些示例文本与scikit Learn聚类. train = ["is this good?", "this is bad", "some other text here", "i am hero", "blue jeans", "red carpet", "red dog", "blue sweater", "red hat", "kitty blue"] vect = T ..

发布时间：2020-05-04 09:19:51 python matplotlib machine-learning scikit-learn AI人工智能

scikit学习DecisionTreeClassifier.tree_.value有什么作用?

我正在研究DecisionTreeClassifier模型，我想了解模型选择的路径.所以我需要知道是什么值 DecisionTreeClassifier.tree_.value 谢谢解决方案您是正确的，因为该文档实际上对此并不了解(但是，老实说，我也不确定它的用处). 让我们从文档中的示例复制虹膜数据: from sklearn.datasets import lo ..

发布时间：2020-05-04 09:19:21 python machine-learning scikit-learn decision-tree AI人工智能

sklearn中的留一法交叉验证的ROC曲线

我想使用留一法交叉验证绘制分类器的 ROC曲线. 似乎已经问过类似的问题在另一个问题中，在这里被声明: 为了通过LeaveOneOut获得有意义的ROC AUC，您需要计算每个折的概率估计(每个折仅由一个观察值)，然后根据所有这些计算出ROC AUC 概率估计. 此外，在scikit-learn官方网站上有一个类似的示例，但使用KFold交叉验证( 所以对于留一法交叉验证案 ..

发布时间：2020-05-04 09:19:19 python machine-learning scikit-learn roc AI人工智能

scikit-learn相关内容