scikit-learn相关内容

Scikits-Learn RandomForrest在64位python上受过培训,不会在32位python上打开

我在64位python上训练了RandomForestRegressor模型. 我腌制物体. 尝试在32位python上释放对象时,出现以下错误: 'ValueError:缓冲区dtype不匹配,预期为'SIZE_t',但为'long long' 我真的不知道如何解决此问题,因此将不胜感激任何帮助. 编辑:更多细节 Traceback (most recent call l ..
发布时间:2020-05-04 08:55:09 AI人工智能

如何从Python的混淆矩阵中获取精度,召回率和f测度

我正在使用Python,并且有一些混淆矩阵.我想通过多类分类中的混淆矩阵来计算精度,召回率和f测度.我的结果日志不包含y_true和y_pred,仅包含混淆矩阵. 您能告诉我如何从多类分类的混淆矩阵中获得这些分数吗? 解决方案 让我们考虑MNIST数据分类(10个类)的情况,其中对于10,000个样本的测试集,我们得到以下混淆矩阵cm(Numpy数组) ): array([[ ..

Scikits机器学习中的价值缺失

scikit-learn中是否可能缺少值?应该如何代表他们?我找不到关于此的任何文档. 解决方案 在scikit-learn中根本不支持缺少值.以前在邮件列表上已经对此进行了讨论,但是没有尝试实际编写代码来处理它们. 无论做什么,请勿使用NaN编码缺失值,因为许多算法拒绝处理包含NaN的样本. 以上答案已经过时;最新版本的scikit-learn具有类 Imputer 可以进行 ..

如何将数据集划分为类之间的训练和验证集保持率?

我有一个多类分类问题,并且我的数据集存在偏差,我有100个特定类的实例,并说有10个不同类,所以如果我有100个实例,我想在各类之间分配数据集保持率某个特定的班级,我希望将30%的记录放入训练集中,我希望在那里有100个记录代表班级的30个实例和10个记录代表班级的3个实例,依此类推. 解决方案 您可以使用sklearn的 分层的K-folds交叉验证迭代器 提供培训/测试 用于在 ..
发布时间:2020-05-04 08:54:48 AI人工智能

GridSearchCV是否执行交叉验证?

我目前正在研究一个问题,该问题将在同一数据集上比较三种不同的机器学习算法的性能.我将数据集分为70/30训练/测试集,然后使用GridSearchCV和X_train, y_train对每种算法的最佳参数进行了网格搜索. 第一个问题,我是应该对训练集执行网格搜索还是应该对整个数据集进行网格搜索? 第二个问题,我知道GridSearchCV在其实现中使用K折,是否表示我对GridSear ..

如何在机器学习中更加重视某些功能?

如果使用像scikit-learn这样的库,如何在输入中的某些特征上为SVM等分类器分配更多权重?这是人们做的事情,还是我的问题有其他解决方案? 解决方案 首先-您可能不应该这样做.机器学习的整个概念是使用统计分析分配最佳权重.您在这里干扰了整个概念,因此您需要非常有力的证据,这对于您要建模的过程至关重要,并且由于某种原因,您的模型目前缺少它. 话虽如此-没有普遍的答案.这纯粹是特定 ..
发布时间:2020-05-04 08:54:40 AI人工智能

PCA分析后的特征/变量重要性

我对原始数据集进行了PCA分析,并从PCA转换后的压缩数据集中,我还选择了要保留的PC数量(它们解释了几乎94%的差异).现在,我正在努力寻找对简化数据集中重要的原始特征. 在缩小尺寸后,我如何找出哪个功能很重要,哪些不属于其余主要组件? 这是我的代码: from sklearn.decomposition import PCA pca = PCA(n_components=8) pca.f ..

什么是“合适的"? scikit-learn中的方法吗?

能否请您解释scikit-learn中的"fit"方法是什么?为什么有用? 我是机器学习和scikit学习的新手. 解决方案 简而言之: fitting 等于 training .然后,在对其进行训练之后,通常可以使用.predict()方法调用来使用该模型进行预测. 要详细说明:将模型拟合到训练数据(即使用.fit()方法)基本上是建模过程中的训练部分.它找到通过使用的算法指 ..
发布时间:2020-05-04 08:54:23 AI人工智能

Scikit学习:如何获得真肯定,真否定,假肯定和假否定

我的问题: 我有一个数据集,它是一个大的JSON文件.我将其读取并存储在trainList变量中. 接下来,我对其进行预处理-为了能够使用它. 完成分类后,就开始了 我使用kfold交叉验证方法来获取均值 准确性并训练分类器. 进行预测并获得准确度&折叠的混淆矩阵. 此后,我想获取True Positive(TP),True Negative(TN),False Pos ..

了解scikit CountVectorizer中的min_df和max_df

我有五个输入到CountVectorizer的文本文件.当为CountVectorizer实例指定min_df和max_df时,最小/最大文档频率到底是什么意思?是某个单词在其特定文本文件中的出现频率,还是在整个整体语料库(5个txt文件)中该单词的出现频率? 以整数或浮点数形式提供min_df和max_df有何不同? 该文档似乎没有提供详尽的解释,也没有提供示例来演示min_df和/ ..
发布时间:2020-05-04 08:54:02 AI人工智能

get_dummies(Pandas)和OneHotEncoder(Scikit-learn)之间的优缺点是什么?

我正在学习将机器学习分类器将分类变量转换为数字的不同方法.我遇到了pd.get_dummies方法和sklearn.preprocessing.OneHotEncoder(),我想看看它们在性能和用法上有何不同. 我在 有人可以解释在sklearn.preprocessing.OneHotEncoder()上使用pd.dummies的利弊吗??我知道OneHotEncoder()给您提供了一 ..

如何使用scikit learning计算多类案例的精度,召回率,准确性和f1-得分?

我正在处理情绪分析问题,数据看起来像这样: label instances 5 1190 4 838 3 239 1 204 2 127 所以我的数据不平衡,因为1190 instances用5标记.对于分类,我使用scikit的 SVC .问题是我不知道如何以正确的方式平衡我的数据,以便准确地计算多类案例的精 ..

Python-sklearn.pipeline.Pipeline到底是什么?

我不知道sklearn.pipeline.Pipeline是如何工作的. doc 中有一些解释. .例如,它们的意思是: 具有最终估计量的变换的管道. 为了使我的问题更清楚,steps是什么?它们如何工作? 修改 借助答案,我可以使问题更清楚: 当我调用管道并通过时,需要两个转换器和一个估计器,例如: pipln = Pipeline([("trsfm1" ..
发布时间:2020-05-04 08:53:44 AI人工智能

无法将“从/导入"识别为内部或外部命令,可操作程序或批处理文件

我无法从scikit-learn导入机器学习算法. 我已经安装了它,但是每当我键入例如"from sklearn.naive_bayes import GaussianNB"时,它都会显示"from"未被识别为内部或外部命令,可操作程序或批处理文件. 我在Windows 10上使用Anaconda.是否存在兼容性问题?我想念什么吗? Idk我对Python还是很陌生,所以我感到迷茫.谢谢 解 ..

Scikit学习-测试集上的fit_transform

我正在努力通过Scikit学习在Python中使用随机森林.我的问题是我将其用于文本分类(分为3类-正/负/中性),提取的特征主要是单词/字母组合,因此我需要将其转换为数字特征.我找到了一种使用DictVectorizer的fit_transform的方法: from sklearn.preprocessing import LabelEncoder from sklearn.metrics ..