random-forest相关内容
来自 caret R 包的 parRF 不适用于具有多个核心的我,这非常具有讽刺意味,因为 parRF 中的 par 代表并行.如果这是相关信息,我在 Windows 机器上.我检查了我是否使用了最新的关于 caret 和 doParallel 的最佳版本. 我做了一个最小的例子,并在下面给出了结果.有什么想法吗? 源代码 库(插入符号)库(doParallel)trCtrl
..
我需要进行一些模拟,出于调试目的,我想使用 set.seed 来获得相同的结果.这是我正在尝试做的示例: 库(foreach)图书馆(doMC)注册DoMC(2)set.seed(123)a
..
我有一个包含二元分类问题的不平衡数据集.我构建了随机森林分类器并使用了 10 折的 k 折交叉验证. kfold = model_selection.KFold(n_splits=10, random_state=42)模型=随机森林分类器(n_estimators=50) 我得到了10折的结果 results = model_selection.cross_val_score(model,
..
class sklearn.ensemble.RandomForestClassifier(n_estimators=10,标准='基尼',最大深度=无,min_samples_split=2,min_samples_leaf=1,min_weight_fraction_leaf=0.0,max_features='auto',max_leaf_nodes=无,引导=真,oob_score=假,n
..
我知道 random_state 在各种 sklearn 算法中用于打破具有相同度量值的不同预测器(树)之间的联系(例如在 GradientBoosting 中).但是文档没有对此进行澄清或详细说明.喜欢 1 ) 这些种子还在哪里用于随机数生成?比如说 RandomForestClassifier ,可以使用随机数找到一组随机特征来构建预测器.使用子采样的算法,可以使用随机数来获得不同的子样
..
如何打印随机森林的决策路径,而不是特定样本的随机森林中单个树的路径. 将 numpy 导入为 np将熊猫导入为 pd从 sklearn.datasets 导入 make_classification从 sklearn.ensemble 导入 RandomForestClassifierX, y = make_classification(n_samples=1000,n_features=6,n
..
我有两个 RandomForestClassifier 模型,我想将它们组合成一个元模型.他们都使用相似但不同的数据进行训练.我该怎么做? rf1 #这是我第一个拟合的 RandomForestClassifier 对象,有 250 棵树rf2 #这是我第二个拟合的 RandomForestClassifier 对象,也有 250 棵树 我想创建 big_rf 将所有的树组合成一个 500 棵
..
我想绘制随机森林的决策树.所以,我创建了以下代码: clf = RandomForestClassifier(n_estimators=100)导入pydotplus进口六从 sklearn 导入树dotfile = 6.StringIO()i_tree = 0对于 clf.estimators_ 中的 tree_in_forest:如果(i_tree 但它不会产生任何东西..您知道如何从随
..
我正在运行 GridSearch CV 来优化 scikit 中分类器的参数.完成后,我想知道哪些参数被选为最佳. 每当我这样做时,我都会收到一个 AttributeError: 'RandomForestClassifier' object has no attribute 'best_estimator_',并且不知道为什么,因为它似乎是 文档. from sklearn.grid_s
..
我只是想做一个简单的 RandomForestRegressor 示例.但是在测试准确性时我得到了这个错误 /Users/noppanit/anaconda/lib/python2.7/site-packages/sklearn/metrics/classification.pyc 在accuracy_score(y_true, y_pred, normalize, sample_weight
..
我有一个以时间序列作为数据输入的分类任务,其中每个属性 (n=23) 代表一个特定的时间点.除了绝对分类结果,我想找出哪些属性/日期对结果的贡献程度.因此,我只是使用 feature_importances_,这对我来说效果很好. 但是,我想知道它们是如何计算的以及使用了哪种度量/算法.很遗憾,我找不到有关此主题的任何文档. 解决方案 确实有几种方法可以获取功能“重要性".通常,对于
..
鉴于上述(树枝)条件存在,我猜测这是条件概率.不过我不是很清楚. 如果您想了解有关所用数据的更多信息或我们如何获得此图表,请访问:http://machinelearningmastery.com/visualize-gradient-boosting-decision-trees-xgboost-python/ 解决方案 属性 leaf 是预测值.换句话说,如果树模型的评估在那个终
..
我正在使用 Scikit-learn.有时我需要标签/类的概率而不是标签/类本身.与其将垃圾邮件/非垃圾邮件作为电子邮件标签,我希望仅举例:给定电子邮件是垃圾邮件的概率为 0.78. 为此,我将 predict_proba() 与 RandomForestClassifier 一起使用,如下所示: clf = RandomForestClassifier(n_estimators=10,
..
我正在使用在 python sklearn 包中实现的 RandomForestClassifier 来构建二进制分类模型.以下是交叉验证的结果: 折叠 1 : 训练: 164 测试: 40训练精度:0.914634146341测试准确度:0.55折叠 2:训练:163 测试:41训练精度:0.871165644172测试精度:0.707317073171折叠 3:训练:163 测试:41训练精
..
如何使用 R 中 randomForrest 调用的结果来预测某些未标记数据(例如要分类的真实世界输入)的标签? 代码: train_data = read.csv("train.csv")input_data = read.csv("input.csv")result_forest = randomForest(Label ~ ., data=train_data)label_input =
..
不过我有一个问题.我从某人那里听说,在 R 中,您可以使用额外的包来提取在 RF 中实现的决策规则,我尝试在 python 中搜索相同的东西,但没有运气,如果对如何实现有任何帮助.提前致谢! 解决方案 假设您使用 sklearn RandomForestClassifier,您可以找到作为 .estimators_ 的单个决策树.每棵树将决策节点存储为 tree_ 下的多个 NumPy 数
..
我有一个类别不平衡的数据集.类是“1"或“0",其中“1":“0"类的比率为 5:1.您如何使用随机森林在 sklearn 中计算每个类的预测误差和相应的重新平衡权重,类似于以下链接:http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#balance 解决方案 您可以将样本权重参数传递给随机森林 拟合方法 sam
..
我申请决策树分类器和随机森林分类器使用以下代码对我的数据进行处理: def decision_tree(train_X, train_Y, test_X, test_Y):clf = tree.DecisionTreeClassifier()clf.fit(train_X,train_Y)返回 clf.score(test_X, test_Y)def random_forest(train_X,
..
我目前正在将 H2O 用于分类问题数据集.我正在 python 3.6 环境中使用 H2ORandomForestEstimator 对其进行测试.我注意到预测方法的结果给出了 0 到 1 之间的值(我假设这是概率). 在我的数据集中,目标属性是数字,即 True 值为 1,False 值为 0.我确保将类型转换为目标的类别属性,我仍然得到相同的结果. 然后我修改了代码,使用 H2OF
..
我可以从决策树中训练有素的树中提取底层决策规则(或“决策路径")作为文本列表吗? 类似于: if A>0.4 then if B0.8 then class='X' 解决方案 我相信这个答案比这里的其他答案更正确: from sklearn.tree import _treedef tree_to_code(tree, feature_names):树_ = 树.树_特征名称 = [
..