decision-tree相关内容
在使用 DecisionTreeClassifier 时,我 使用 graphviz 对其进行了可视化,不得不说,令我惊讶的是,它似乎需要分类数据并将其用作连续数据. 我所有的特征都是分类的,例如你可以看到下面的树(请注意第一个特征,X[0],有 6 个可能的值 0、1、2、3、4、5:从我发现 here 该类使用了一个树类二叉树,所以是sklearn的一个限制. 有谁知道我缺少一种明
..
我很好奇 Graphviz 在用于回归时生成的决策树节点中的 value 字段是什么.我知道这是在使用决策树分类时每个类中被分割分开的样本数,但我不确定这对回归意味着什么. 我的数据有一个 2 维输入和一个 10 维输出.这是我的回归问题的树的示例: 使用此代码制作 &使用 webgraphviz 可视化 # X = (n x 2) Y = (n x 10) X_test = (m
..
对 random_state 参数感到困惑,不知道为什么决策树训练需要一些随机性.我的想法,(1)它与随机森林有关吗?(2) 是否与拆分训练测试数据集有关?如果是这样,为什么不直接使用训练测试拆分方法(http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.train_test_split.html)?
..
我收到以下错误 c50 代码名为 exit,值为 1 我是根据 Kaggle 提供的泰坦尼克号数据进行的 # 导入数据集train
..
我申请决策树分类器和随机森林分类器使用以下代码对我的数据进行处理: def decision_tree(train_X, train_Y, test_X, test_Y):clf = tree.DecisionTreeClassifier()clf.fit(train_X,train_Y)返回 clf.score(test_X, test_Y)def random_forest(train_X,
..
我可以从决策树中训练有素的树中提取底层决策规则(或“决策路径")作为文本列表吗? 类似于: if A>0.4 then if B0.8 then class='X' 解决方案 我相信这个答案比这里的其他答案更正确: from sklearn.tree import _treedef tree_to_code(tree, feature_names):树_ = 树.树_特征名称 = [
..
正如问题所说,org.apache.spark.ml 中是否有任何相当于 Spark org.apache.spark.mllib.tree.model.DecisionTreeClassificationModel.toDebugString() 的东西.分类.决策树分类模型 我已经浏览了后者的 API 文档,发现这个方法 rootNode() 返回一个 org.apache.spark.
..
我有一个关于女巫的 LabeledPoint 我想运行决策树(以及后来的随机森林) scala>转换后的数据收集res8: Array[org.apache.spark.mllib.regression.LabeledPoint] = Array((0.0,(400036,[7744],[2.0])), (0.0,(400036,[7744,8608],[3.0,3.0])), (0.0,(40
..
我正在尝试在 UCI 银行营销数据上构建决策树和随机森林分类器 -> https://archive.ics.uci.edu/ml/datasets/bank+marketing.数据集中有许多分类特征(具有字符串值). 在 spark ml 文档中,提到可以通过使用 StringIndexer 或 VectorIndexer 进行索引将分类变量转换为数字.我选择使用 StringIndex
..
我必须使用此代码: val dt = new DecisionTreeClassifier().setLabelCol("indexedLabel").setFeaturesCol("indexedFeatures").setImpurity(impurity).setMaxBins(maxBins).setMaxDepth(最大深度); 我需要添加分类特征信息,以便决策树不会将 indexe
..
我对决策树比较陌生,并且坚持使用我的决策树算法.我正在使用交叉验证和参数调整来优化以下示例的分类:https://medium.com/@haydar_ai/learning-data-science-day-22-cross-validation-and-parameter-tuning-b14bcbc6b012.但是无论我如何调整我的参数,我总是得到这样的结果(这里只是一个小树的例子):
..
我正在尝试评估 2 种数据插补方法. 我的数据集:https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data 我的目标标签是 LotFrontage. 首先,我使用 OneHotEncoding 对所有类别特征进行编码,然后使用相关矩阵并过滤 -0.3 或 0.3 之上的任何内容. encoded_
..
我使用WEKA gui训练并创建了J48模型.我将模型文件保存到计算机上,现在我想用它来对Java代码中的单个实例进行分类.我想对属性"cluster"进行预测.我要做的是以下事情: 公共无效分类(double lat,double lon,double co){//创建要与分类器一起使用的属性属性latitude = new Attribute("latitude");属性经度=新属性(“经度
..
我构建了一个决策树,该决策树将每个样本均等地加权.现在构造一个决策树,为不同的样本赋予不同的权重.我唯一需要做的更改是在计算信息增益之前找到期望的熵.我有点困惑如何进行,请解释.... 例如:考虑一个包含p个正节点和n个负节点的节点,因此节点的熵为 -p/(p + n)log(p/(p + n))-n/(p+ n)log(n/(p + n)).现在,如果发现分裂,以某种方式将父节点划分为两个
..
假装我创建了一个回归树: 库(rpart)库(rpart.plot)数据("mtcars")适合
..
我使用以下代码获取CHAID的决策树 independent_variable_columns = ['gender','grade','no_renewals','complaint_count']dep_variable ='开关'树= Tree.from_pandas_df(dfdict(zip(independent_variable_columns,['nominal'] * 38)
..
我正在尝试预测"Full_Time_Home_Goals" 我的代码是: 将pandas导入为pd从sklearn.model_selection导入train_test_split从sklearn.tree导入DecisionTreeRegressor从sklearn.metrics导入mean_absolute_error从sklearn.ensemble导入RandomForestR
..
我需要能够更改用于构建决策树的功能(具有机器学习的含义).以Iris数据集为例,我希望能够选择Sepallength作为根节点中使用的功能,并选择Petallength作为第一级节点中使用的功能,依此类推. 我想明确一点,我的目的不是更改最小样本分割和决策树的随机状态.而是选择特征-被分类元素的特征-并将它们放在决策树的某些节点中. 然后,代码应该能够找到最佳阈值-每个节点的范围-产生
..
如何处理sklearn决策树的广度优先搜索遍历? 在我的代码中,我尝试了sklearn.tree_库,并使用了诸如tree_.feature和tree_.threshold之类的各种功能来理解树的结构.但是,如果我想做bfs,这些功能会遍历树的dfs吗? 假设 clf1 = DecisionTreeClassifier(max_depth = 2)clf1 = clf1.fit(x
..
我正在学习ML,并且正在做一个简单的动手,如下所示: //将boston.data分成两个名称为x_train和x_test的集合.另外,将boston.target分成两组y_train和y_test. 使用默认参数从x_train集合构建决策树回归模型.// 我为此做了以下代码: sklearn导入数据集中的 ,model_selection,树波士顿= datasets
..