random-forest相关内容

提高功能重要性

我正在处理一个分类问题。我有大约1000个功能和目标变量有2个类。所有1000个要素的值都为1或0。我正在尝试确定功能重要性,但我的功能重要性值从0.0%到0.003不等。我不确定这么低的值是否有意义。 是否有方法可以提高功能重要性。 # Variable importance rf = RandomForestClassifier(min_samples_split=10, rand ..

如何在与RFECV结合时使用GridSearch中的';max_Feature';?

感谢您提前答复。这是我的第一篇帖子,而且我还是个新手,所以如果我的内容格式化得很糟糕,我很抱歉。 我正在尝试将递归特征消除和网格搜索结合起来,以确定超参数和特征数量的最佳组合。使用下面的代码时,我得到max_Feature必须在(0,n_Feature]估计器拟合失败。除max_Feature之外的任何值都是1。我的数据集中有300多个要素,其中许多可能并不重要。 ‘’ ..
发布时间:2022-04-24 21:28:14 其他开发

WEKA分类在精度、FMEASURE和MCC方面没有给出任何结果

我有一个数据集。该数据集具有一些类别值和一些离散值。我的数据集是不平衡的数据集。使用Weka提供的Resample过滤器将数据集分为60%的训练数据和40%的测试数据。为了使数据集平衡,我使用了SMOTE技术。之后,我使用随机森林对数据集进行分类。 结果为 现在我不明白结果中?是什么意思?其次,为什么假阳性和真阳性没有价值?这是否意味着即使在应用SMOTE之后,数据集仍然偏向No类? ..
发布时间:2022-04-22 22:06:26 其他开发

如何在栅格名称中插入空格?R

我尝试在栅格堆栈的层名称中添加空格 names(predstack)[[1]] names(predstack)[[1]] [1] "MSR670.max" 我知道这很愚蠢,但我计算了一个模型,花了7天的时间计算。不幸的是,有一个模型变量的名称中包含空格。 现在我想对堆栈进行预测,但这不起作用,因为出现以下错误: > Prediction2mod ..
发布时间:2022-04-22 21:51:49 其他开发

导出/打印随机森林决策树/';随机森林分类器对象没有属性';树_';

大家晚上好 本文的目标是能够从随机决策树过程中绘制决策树。在运行不同的选项后,我总是得到下一个错误:‘RandomForestVinator’对象没有属性‘tree_’ 非常感谢任何帮助/代码示例/想法或链接,以便能够解决此问题。 在下一组代码中,我是如何绘制常规/常规决策树的。 clf_SMOTE1 = DecisionTreeClassifier(criterion=' ..
发布时间:2022-04-22 21:30:59 Python

随机森林:如何将更多的特征添加到稀疏矩阵中,并确定特征重要性中的项?

我需要在随机森林模型中使用词袋(BOW)生成的功能和额外功能(如Grp&;Rating)。 由于弓是稀疏矩阵,如何添加额外的特征来创建新的稀疏矩阵?目前,我将稀疏矩阵转换为稠密矩阵,并连接额外的特征以创建DF(例如DF2)。有没有办法将额外的特征添加到弓稀疏矩阵中? 如果我们使用稀疏矩阵作为X系列,我如何识别特征重要性中的项?目前我使用的是df2列。 谢谢 from ..
发布时间:2022-04-22 21:22:07 Python

在随机林中使用Forecast()和Predict_Proba()进行计算时,ROC_AUC_Score不同

在随机林中预测()和预测_Proba()产生不同的ROC_AUC_Score。 我知道Forecast_Proba()给出了概率,比如在二进制分类的情况下,它会给出两个对应于两个类别的概率。 Forecate()给出它预测的类。 #Using predict_proba() rf = RandomForestClassifier(n_estimators=200, ra ..

TidyModels:仅当概率为75%或更高时才归类为真

我有一个二进制分类问题,并使用了随机森林和Logistic回归。 根据conf_mat、collect_metrics()和collect_predictions的结果,我想将我的模型更改为仅当该模型的概率为75%或更高时才归类为真。我只是不知道在哪里指定这个变化。如果有人能给我一个提示,那就太棒了。我的直觉告诉我,它应该在型号规范中的某个地方,例如这里的某个地方,但可能我错了。 canc_ ..
发布时间:2022-04-22 20:23:49 其他开发

在Python中使用factorize()后如何获取原始值?

我是一个初学者,正在尝试使用Python中的随机森林,使用训练和测试数据集来创建预测模型。序列[“允许/阻止”]可以取4个预期值中的1个(所有字符串)。测试[“允许/阻止”]是需要预测的。 y,_ = pd.factorize(train["ALLOW/BLOCK"]) y Out[293]: array([0, 1, 0, ..., 1, 0, 2], dtype=int64) 我使 ..
发布时间:2022-04-22 19:25:43 Python

如何在本网站的RandomForestRegressor中订购&Quot;Feature_Importance_&Quot

如果我运行一个模型(在本例中名为clf),我会得到如下所示的输出。如何将其与用于训练分类器的功能输入绑定? >>> clf.feature_importances_ array([ 0.01621506, 0.18275428, 0.09963659,... ]) 推荐答案 正如评论中提到的,顺序或功能重要性看起来是“x”输入变量的顺序(我已将其从Pandas转换为Pytho ..
发布时间:2022-04-22 19:19:23 Python

如何知道在XGBoost中创建的树的数量

我有一个关于XGBoost的问题。 您知道如何知道在XGBoost中创建的树的数量吗? 与RandomForest不同,模型制造商决定制作多少棵树,XGBoost基本上继续创建树,直到损失函数达到一定的数字。因此我想知道这一点。 谢谢。 推荐答案 它有点歪曲,但我现在做的是dump-模型(XGBoost生成一个列表,其中每个元素都是单个树的字符串表示),然后计算列表中有多少 ..
发布时间:2022-04-22 19:04:25 Python

使用要素名称绘制要素重要性

在R中有预先构建的函数来绘制随机森林模型的特征重要性。但在蟒蛇中,似乎缺少这种方法。我在matplotlib中搜索方法。 model.feature_importances提供以下信息: array([ 2.32421835e-03, 7.21472336e-04, 2.70491223e-03, 3.34521084e-03, 4.19443238e- ..
发布时间:2022-02-27 16:16:59 Python

为随机森林回归模型设置 ntree 和 mtry 的值

我正在使用 R 包 randomForest 对一些生物数据进行回归.我的训练数据大小是 38772 X 201. 我只是想知道 --- 树的数量 ntree 和每个级别的变量数量 mtry 的合适值是多少?有没有近似公式可以找到这样的参数值? 我输入数据中的每一行是一个 200 个字符,代表氨基酸序列,我想建立一个回归模型来使用这样的序列来预测蛋白质之间的距离. 解决方案 m ..

R 随机森林变量重要性

我正在尝试使用随机森林包在 R 中进行分类. 列出的变量重要性度量是: 0 类变量 x 的平均原始重要性得分 第 1 类变量 x 的平均原始重要性得分 MeanDecreaseAccuracy MeanDecreaseGini 现在我知道这些“意思"是什么,因为我知道它们的定义.我想知道的是如何使用它们. 我真正想知道的是,这些值仅在它们的准确度、什么是好的值、什么是 ..
发布时间:2022-01-07 23:15:32 AI人工智能