decision-tree相关内容
我正在尝试让Graphviz显示我的oneHotEncoded分类数据,但是我无法使其正常工作。 这是我的X数据,其中包含以下这些列: 类别,大小,类型,等级,类型,版本数 ['ART_AND_DESIGN''6000000+''免费''每个人''艺术与艺术设计”‘7’] [’ART_AND_DESIGN’’6000000+’’免费’‘每个人’’Art&设计”‘2’]
..
我创建了一个数据框: totalDeposit
..
我希望可视化使用scikit learning中的任何集成方法(梯度增强回归,随机森林回归,袋装回归)构建的回归树。 我已经看过(该问题即将结束)和此问题 处理分类树。但是这些问题需要使用“ tree”方法,SKLearn的回归模型无法使用这种方法。 但似乎没有得出结果。 我遇到了问题,因为这些树的回归版本没有 .tree 方法(该方法仅适用于分类版本)。 我想要的输出类似于 thi
..
我使用sklearn.tree.DecisionTreeClassifier来构建决策树。使用最佳参数设置,我得到的树上有多余的叶子(请参见下面的示例图片-我不需要概率,因此标有红色的叶子节点是不必要的分割) 是否存在用于修剪这些不必要节点的第三方库?还是代码片段?我可以写一个,但是我真的无法想象我是第一个遇到此问题的人... 要复制的代码: sklearn.tree导入中的b
..
我想要scikit-learn中的决策树(DecisionTreeClassifier)中从根节点到给定节点(由我提供)的决策路径(即规则集)。 clf.decision_path 指定样本经过的节点,这可能有助于获取样本遵循的规则集,但是如何将规则集获取到 解决方案 对于使用 iris数据集的节点的决策规则 code>: 从sklearn.datasets导入load_iris
..
我试图了解如何在sci-kit学习中为决策树计算功能重要性。之前已经问过这个问题,但是我无法重现该算法提供的结果。 例如: 从StringIO导入StringIO 来自sklearn.datasets的 进口load_iris来自sklearn.tree的 进口DecisionTreeClassifier来自sklearn.tree.export的 来自sklearn.feature
..
我想检查到达rpart决策树中某个节点的所有观察值。例如,在以下代码中: fit = 8.5 62 6不存在(0.90322581 0.
..
我是R的新手,并且遇到了一个非常愚蠢的问题。 我正在使用 rpart 软件包,以便进行一些分类和预测。 感谢R的校准,该部分易于操作且易于控制。 #需要软件包rpart 库(rpart) #加载用于校准的大数据文件 my_data
..
我正在使用xgboost进行排名 param = {'objective':'rank:pairwise','booster ':'gbtree'} 据我了解,通过计算获知决策的加权总和可以实现梯度增强树木。如何获得分配给每个学习的助推器的权重?我想在训练后尝试对权重进行后处理,以加快预测步骤,但我不知道如何获取各个权重。 使用 dump_model()时,可以在创建的
..
我正在尝试使用python中的scikit-learn设计一个简单的决策树(我正在Windows操作系统上使用Anaconda的Ipython Notebook和Python 2.7.3)并将其可视化如下: 来自pandas import read_csv,DataFrame 来自sklearn import tree from os导入系统 data = read_csv('D
..
我在R中使用 rpart 和 ctree 建立了决策树模型。 我还使用构建的模型预测了一个新的数据集,并获得了预测的概率和类。 但是,我想提取规则/路径,在对于每个观察值(在预测数据集中)都遵循一个字符串。以表格格式存储此数据,我无需打开R就可以自动解释原因预测。 这意味着我想关注。 ObsID概率预测的类路径跟随的 1 0.68 Safe CarAge
..
我从此文档中了解到 > “类平衡可以通过对每个类采样相同数量的样本来完成,或者最好将每个类的样本权重之和(sample_weight)归一化为相同值。 ” 但是,我仍然不清楚这是如何工作的。如果我将 sample_weight 设置为仅包含两个可能值的数组,则分别为 1 和 2 ,这是否意味着 2 的样本的采样频率是 1的样本的两倍是在装袋时?我想不出一个实际的例子。 解决方案
..
关于如何将分类数据编码到Sklearn决策树的文章很多,但是从Sklearn文档中,我们得到了这些信息。 决策树的某些优点是: (...) 能够处理数值和分类数据。其他技术通常专用于分析仅具有一种类型的变量的数据集。有关更多信息,请参见算法。 但是运行以下脚本 从sklearn.tree将pandas作为pd 导入DecisionTreeClassifier
..
我正在使用C50决策树算法。我能够构建树并获得摘要,但是无法弄清楚如何绘制或绘制树。 我的C50模型称为credit_model 在其他决策树程序包中,我通常使用诸如plot(credit_model )。在rpart中,它是rpart.plot(credit_model)。 C50算法中要绘制的等价物是什么? 解决方案 这是您要查找的功能: C5.0.graph
..
这是我可以用来列出所有终端节点的权重的方法:但是如何添加一些代码以获取响应预测以及每个终端节点ID的权重: 说我希望我的输出看起来像这样 - 这是到目前为止我能得到的重量 个节点(airct,unique(where(airct))) 谢谢 解决方案 二叉树是一个很大的S4对象,因此有时很难提取数据。 但是BinaryTree对象的plot方
..
我试图绘制由GridSearchCV形成的决策树,但它给了我一个属性错误。 AttributeError :'GridSearchCV'对象没有属性'n_features_' 但是如果我尝试绘制普通的决策树 代码[没有gridsearchcv的决策树] #dtc_entropy:基于熵/信息的决策树分类器 #plotting:基于信息/熵的决策
..
我正在寻找一种将使用scikit sklearn训练的决策树转换为决策表的方法。 我想知道如何解析决策树 然后,我想了解有关如何构建此表的想法。 您知道一种方法还是有一种想法? / p> 解决方案 在其他答案此处构建。以下内容以相同的方式遍历树,但生成一个熊猫数据框作为输出。 import sklearn 将熊猫作为pd def tree_to_df(re
..
我有一个具有唯一标识符和其他功能的数据集。看起来像这样 ID LenA TypeA LenB TypeB差异分数响应 123-456 51 M 101 L 50 0.2 0 234-567 46 S 49 S 3 0.9 1 345-678 87 M 70 M 17 0.7 0 我将其分为训练和测试数据。我正在尝试将训练数据从经过训练数据训练的分类器中分为
..
我正在使用来自 sklearn 的分类树,当我使用相同的数据两次进行模型训练,并使用相同的测试数据进行预测时,我得到了不同结果。我尝试在较小的虹膜数据集上进行再现,并且按预期工作。这是一些代码 来自sklearn导入树 来自sklearn.datasets导入虹膜 clf = tree.DecisionTreeClassifier() clf.fit(iris.data,iris.t
..
我目前正在处理MMST包中的葡萄酒数据。我已经将整个数据集分为训练和测试,并构建了像以下代码这样的树: library(“ rpart”) 库(“ gbm”) 库(“ randomForest”) 库(“ MMST”) 数据(酒) 辅助
..