random-forest - IT屋-程序员软件开发技术分享社区

PySpark MLLIB随机林：预测始终为0

使用ml、Spark 2.0(Python)和一个120万行的数据集，我试图创建一个使用Random Forest Classifier预测购买趋势的模型。但是，当将转换应用于拆分的test数据集时，预测始终为0。数据集如下所示： [Row(tier_buyer=u'0', N1=u'1', N2=u'0.72', N3=u'35.0', N4=u'65.81', N5=u'30.6 ..

发布时间：2022-08-14 22:43:44 pyspark classification random-forest apache-spark-mllib 其他开发

提高功能重要性

我正在处理一个分类问题。我有大约1000个功能和目标变量有2个类。所有1000个要素的值都为1或0。我正在尝试确定功能重要性，但我的功能重要性值从0.0%到0.003不等。我不确定这么低的值是否有意义。是否有方法可以提高功能重要性。 # Variable importance rf = RandomForestClassifier(min_samples_split=10, rand ..

发布时间：2022-04-24 21:41:01 python machine-learning classification random-forest AI人工智能

如何在与RFECV结合时使用GridSearch中的'；max_Feature'；？

感谢您提前答复。这是我的第一篇帖子，而且我还是个新手，所以如果我的内容格式化得很糟糕，我很抱歉。我正在尝试将递归特征消除和网格搜索结合起来，以确定超参数和特征数量的最佳组合。使用下面的代码时，我得到max_Feature必须在(0，n_Feature]估计器拟合失败。除max_Feature之外的任何值都是1。我的数据集中有300多个要素，其中许多可能并不重要。 ‘’ ..

发布时间：2022-04-24 21:28:14 scikit-learn random-forest gridsearchcv rfe 其他开发

WEKA分类在精度、FMEASURE和MCC方面没有给出任何结果

我有一个数据集。该数据集具有一些类别值和一些离散值。我的数据集是不平衡的数据集。使用Weka提供的Resample过滤器将数据集分为60%的训练数据和40%的测试数据。为了使数据集平衡，我使用了SMOTE技术。之后，我使用随机森林对数据集进行分类。结果为现在我不明白结果中?是什么意思？其次，为什么假阳性和真阳性没有价值？这是否意味着即使在应用SMOTE之后，数据集仍然偏向No类？ ..

发布时间：2022-04-22 22:06:26 classification precision random-forest weka smote 其他开发

如何在栅格名称中插入空格？R

我尝试在栅格堆栈的层名称中添加空格 names(predstack)[[1]] names(predstack)[[1]] [1] "MSR670.max" 我知道这很愚蠢，但我计算了一个模型，花了7天的时间计算。不幸的是，有一个模型变量的名称中包含空格。现在我想对堆栈进行预测，但这不起作用，因为出现以下错误： > Prediction2mod ..

发布时间：2022-04-22 21:51:49 r random-forest raster r-raster names 其他开发

在随机森林中使用OOB和k-折x-val时出现不同的插入符号/训练错误

以下是我使用的代码： # data set for debugging in RStudio data("imports85") input ..

发布时间：2022-04-22 21:42:26 r random-forest r-caret 其他开发

导出/打印随机森林决策树/'；随机森林分类器对象没有属性'；树_'；

大家晚上好本文的目标是能够从随机决策树过程中绘制决策树。在运行不同的选项后，我总是得到下一个错误：‘RandomForestVinator’对象没有属性‘tree_’ 非常感谢任何帮助/代码示例/想法或链接，以便能够解决此问题。在下一组代码中，我是如何绘制常规/常规决策树的。 clf_SMOTE1 = DecisionTreeClassifier(criterion=' ..

发布时间：2022-04-22 21:30:59 python random-forest graphviz decision-tree Python

随机森林：如何将更多的特征添加到稀疏矩阵中，并确定特征重要性中的项？

我需要在随机森林模型中使用词袋(BOW)生成的功能和额外功能(如Grp&；Rating)。由于弓是稀疏矩阵，如何添加额外的特征来创建新的稀疏矩阵？目前，我将稀疏矩阵转换为稠密矩阵，并连接额外的特征以创建DF(例如DF2)。有没有办法将额外的特征添加到弓稀疏矩阵中？如果我们使用稀疏矩阵作为X系列，我如何识别特征重要性中的项？目前我使用的是df2列。谢谢 from ..

发布时间：2022-04-22 21:22:07 python random-forest Python

我如何从R中的随机森林预测函数中按类别求和选票？

此示例代码创建一个dataframe，其初始列表示10个树中的多数票。接下来的10列包含模型中每棵树的分类投票。我想创建一个图表来显示每一行的选票分布。执行此操作的最佳方式是什么？ library(tidyverse) library(caret) library(randomForest) train_index_cars ..

发布时间：2022-04-22 21:14:31 r random-forest predict rowsum 其他开发

只有在向RandomizedSearchCV添加RandomForest max_Feature参数时，才会出现“UserWarning：一个或多个测试分数是非限定的”警告

from sklearn.model_selection import RandomizedSearchCV # --initialise classifier classifier = RandomForestClassifier(n_estimators=300) # -- set hyperparameters to tune param_grid = { "max_depth": ..

发布时间：2022-04-22 21:07:51 python machine-learning scikit-learn random-forest hyperparameters AI人工智能

在随机林中使用Forecast()和Predict_Proba()进行计算时，ROC_AUC_Score不同

在随机林中预测()和预测_Proba()产生不同的ROC_AUC_Score。我知道Forecast_Proba()给出了概率，比如在二进制分类的情况下，它会给出两个对应于两个类别的概率。 Forecate()给出它预测的类。 #Using predict_proba() rf = RandomForestClassifier(n_estimators=200, ra ..

发布时间：2022-04-22 20:44:34 python-3.x machine-learning scikit-learn random-forest AI人工智能

TidyModels：仅当概率为75%或更高时才归类为真

我有一个二进制分类问题，并使用了随机森林和Logistic回归。根据conf_mat、collect_metrics()和collect_predictions的结果，我想将我的模型更改为仅当该模型的概率为75%或更高时才归类为真。我只是不知道在哪里指定这个变化。如果有人能给我一个提示，那就太棒了。我的直觉告诉我，它应该在型号规范中的某个地方，例如这里的某个地方，但可能我错了。 canc_ ..

发布时间：2022-04-22 20:23:49 r random-forest tidymodels 其他开发

缩小R中随机林木小区的大小

我使用reprtree包绘制了随机森林树，如下所示 model23 ..

发布时间：2022-04-22 20:08:41 r random-forest 其他开发

从OneVsRest分类器获取多标签分类的随机森林要素_Importance

我正在使用OneVsRest分类器来解决多标签分类问题。我正在将随机森林分类器传递给它。 from sklearn.multiclass import OneVsRestClassifier from sklearn.ensemble import RandomForestClassifier clf = OneVsRestClassifier(RandomForestClassifier( ..

发布时间：2022-04-22 19:45:28 python scikit-learn random-forest Python

在Python中使用factorize()后如何获取原始值？

我是一个初学者，正在尝试使用Python中的随机森林，使用训练和测试数据集来创建预测模型。序列[“允许/阻止”]可以取4个预期值中的1个(所有字符串)。测试[“允许/阻止”]是需要预测的。 y,_ = pd.factorize(train["ALLOW/BLOCK"]) y Out[293]: array([0, 1, 0, ..., 1, 0, 2], dtype=int64) 我使 ..

发布时间：2022-04-22 19:25:43 python pandas random-forest prediction Python

如何在本网站的RandomForestRegressor中订购&Quot；Feature_Importance_&Quot

如果我运行一个模型(在本例中名为clf)，我会得到如下所示的输出。如何将其与用于训练分类器的功能输入绑定？ >>> clf.feature_importances_ array([ 0.01621506, 0.18275428, 0.09963659,... ]) 推荐答案正如评论中提到的，顺序或功能重要性看起来是“x”输入变量的顺序(我已将其从Pandas转换为Pytho ..

发布时间：2022-04-22 19:19:23 python scikit-learn random-forest Python

如何知道在XGBoost中创建的树的数量

我有一个关于XGBoost的问题。您知道如何知道在XGBoost中创建的树的数量吗？与RandomForest不同，模型制造商决定制作多少棵树，XGBoost基本上继续创建树，直到损失函数达到一定的数字。因此我想知道这一点。谢谢。推荐答案它有点歪曲，但我现在做的是dump-模型(XGBoost生成一个列表，其中每个元素都是单个树的字符串表示)，然后计算列表中有多少 ..

发布时间：2022-04-22 19:04:25 python random-forest xgboost Python

使用要素名称绘制要素重要性

在R中有预先构建的函数来绘制随机森林模型的特征重要性。但在蟒蛇中，似乎缺少这种方法。我在matplotlib中搜索方法。 model.feature_importances提供以下信息： array([ 2.32421835e-03, 7.21472336e-04, 2.70491223e-03, 3.34521084e-03, 4.19443238e- ..

发布时间：2022-02-27 16:16:59 python matplotlib random-forest seaborn Python

为随机森林回归模型设置 ntree 和 mtry 的值

我正在使用 R 包 randomForest 对一些生物数据进行回归.我的训练数据大小是 38772 X 201. 我只是想知道 --- 树的数量 ntree 和每个级别的变量数量 mtry 的合适值是多少?有没有近似公式可以找到这样的参数值? 我输入数据中的每一行是一个 200 个字符，代表氨基酸序列，我想建立一个回归模型来使用这样的序列来预测蛋白质之间的距离. 解决方案 m ..

发布时间：2022-01-07 23:29:46 r statistics machine-learning regression random-forest AI人工智能

R 随机森林变量重要性

我正在尝试使用随机森林包在 R 中进行分类. 列出的变量重要性度量是: 0 类变量 x 的平均原始重要性得分第 1 类变量 x 的平均原始重要性得分 MeanDecreaseAccuracy MeanDecreaseGini 现在我知道这些“意思"是什么，因为我知道它们的定义.我想知道的是如何使用它们. 我真正想知道的是，这些值仅在它们的准确度、什么是好的值、什么是 ..

发布时间：2022-01-07 23:15:32 r statistics data-mining random-forest AI人工智能

random-forest相关内容