scikit-learn相关内容

如何在python中提取随机森林的决策规则

不过我有一个问题.我听说有人在R中可以使用额外的程序包提取在RF中实现的决策规则,我尝试在python中用google搜索同样的东西,但是没有运气,如果有帮助的话. 预先感谢! 解决方案 假定您使用sklearn RandomForestClassifier,则可以找到单个决策树,如.estimators_.每棵树将决策节点存储为tree_下的多个NumPy数组. 这是一些示例代码, ..

分类结果取决于random_state?

我想使用scikit-learn(sklearn)实现AdaBoost模型.我的问题类似于另一个问题,但并非完全相同.据我了解,文档用于根据前面的链接随机划分训练和测试集.因此,如果我理解正确,那么我的分类结果就不应依赖于种子,这是正确的吗?我是否应该担心我的分类结果是否取决于random_state变量? 解决方案 您的分类分数取决于random_state.就像@Ujjwal正确说的那 ..

用于分类功能的LabelEncoder?

这可能是一个初学者的问题,但是我已经看到很多人使用LabelEncoder()来将分类变量替换为常规变量.很多人一次通过传递多列来使用此功能,但是我对某些功能中的错误序数及其对模型的影响会产生疑问.这是一个示例: 输入 import pandas as pd import numpy as np from sklearn.preprocessing import LabelEncode ..

在Scikit-learn中将smote与Gridsearchcv一起使用

我正在处理不平衡的数据集,并希望使用scikit的gridsearchcv进行网格搜索以调整模型的参数.为了对数据进行过采样,我想使用SMOTE,我知道我可以将其作为管道的一个阶段,并将其传递给gridsearchcv. 我担心的是,我认为击打将同时应用于训练和验证褶皱,这不是您应该做的.验证集不应过采样. 我是否正确,整个管道将应用于两个数据集拆分?如果是的话,我该如何扭转呢? 提前谢谢 ..

如何在当前单词分类中添加另一个功能(文本长度)? Scikit学习

我正在用一堆单词对文本进行分类.它运行良好,但我想知道如何添加一个单词所不能提供的功能. 这是我的示例代码. import numpy as np from sklearn.pipeline import Pipeline from sklearn.feature_extraction.text import CountVectorizer from sklearn.svm impor ..

graph.write_pdf("iris.pdf")AttributeError:“列表"对象没有属性"write_pdf"

我的代码遵循google的机器学习课程.两个代码是相同的.我不知道为什么会显示错误.可能是变量的类型是错误.但是google的代码对我来说是相同的.曾经遇到过这个问题吗? 这是错误 [0 1 2] [0 1 2] Traceback (most recent call last): File "/media/joyce/oreo/python/machine_learn/Visua ..
发布时间:2020-05-04 08:56:53 AI人工智能

如何指定scikit-learn的朴素贝叶斯的先验概率

我正在使用scikit-learn机器学习库(Python)进行机器学习项目.我使用的算法之一是高斯朴素贝叶斯实现. GaussianNB()函数的属性之一如下: class_prior_ : array, shape (n_classes,) 我想事先手动更改类,因为我使用的数据非常不正确,并且召回其中一个类非常重要.通过为该班级分配较高的先验概率,召回率应会增加. 但是,我不知 ..
发布时间:2020-05-04 08:56:49 AI人工智能

在scikit的决策树中对random_state感到困惑

对random_state参数感到困惑,不确定为什么决策树训练需要一些随机性.我的想法是:(1)与随机森林有关吗? (2)与分割训练测试数据集有关吗?如果是这样,为什么不直接使用训练测试拆分方法( http://scikit-learn.org/stable/modules/generation/sklearn.cross_validation.train_test_split.html )? ..

确定sklearn中SVM分类器最有帮助的功能

我有一个数据集,我想在该数据上训练我的模型.训练后,我需要了解SVM分类器分类的主要贡献者. 森林算法有一种叫做特征重要性的东西,有没有类似的东西? 解决方案 是的,SVM分类器具有属性coef_,但仅适用于具有线性核的SVM.对于其他内核,这是不可能的,因为数据是通过内核方法转换到与输入空间无关的另一个空间的,请检查from matplotlib import pyplot as ..
发布时间:2020-05-04 08:56:28 AI人工智能

(Python-sklearn)如何通过gridsearchcv将参数传递给自定义ModelTransformer类

下面是我的管道,似乎无法使用ModelTransformer类将参数传递给我的模型,我从链接(该错误消息对我来说很有意义,但我不知道如何解决.任何想法如何解决这个问题?谢谢. # define a pipeline pipeline = Pipeline([ ('vect', DictVectorizer(sparse=False)), ('scale', preprocessing.Min ..

在sklearn中使用RandomForestClassifier进行不平衡分类

我有一个数据集,其中的类是不平衡的.类别为"1"或"0",其中类别"1":"0"的比率为5:1.如何在带有随机森林的sklearn中计算每个类别的预测误差以及相应的重新平衡权重,类似于以下链接:http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#balance 解决方案 您可以将样本权重参数传递给Random Fo ..