boosting相关内容

使用树输出在 Spark 中的梯度提升树的情况下预测类的概率

众所周知,Spark 中的 GBT 为您提供了截至目前的预测标签. 我正在考虑尝试计算一个类的预测概率(比如所有实例都落在某个叶子下) 构建 GBT 的代码 import org.apache.spark.SparkContext导入 org.apache.spark.mllib.regression.LabeledPoint导入 org.apache.spark.mllib.lin ..
发布时间:2021-11-14 21:04:43 其他开发

XGBoost 中的特征重要性“增益"

我想了解 xgboost 中的特征重要性是如何通过“增益"来计算的.来自 https://towardsdatascience.com/be-仔细解释您的功能重要性-xgboost-6e16132588e7: ‘Gain’是一个特征给它所在的分支带来的准确度的提高.这个想法是,在将特征 X 上的新拆分添加到分支之前,有一些错误分类的元素,在此特征上添加拆分后,有两个新分支,并且每个分支都更准 ..
发布时间:2021-10-01 18:36:35 Python

xgboost多类工作中的base_score有什么用?

我正在尝试探索Xgboost二进制分类以及多分类的工作.对于二元类,我观察到 base_score 被视为开始概率,并且在计算 Gain 和 Cover 时也显示出主要影响. 对于多类别的情况,我无法弄清 base_score 参数的重要性,因为它向我展示了 Gain 和 Cover的值相同表示base_score的不同(任意)值. 在为多类别(即 2 * p *(1-p))计算 cove ..

如何提高Elasticsearch函数得分中的字段长度范数?

我知道,弹性搜索在计算查询检索的文档的分数时会考虑字段的长度。字段越短,权重越高(请参见字段长度范数)。 我喜欢这种行为:当我搜索 iphone 时,我对更加感兴趣iphone 6 比中的废话配件:iphone 5 iphone 5s iphone 6 。 现在,我想尝试增强这些功能,比方说,我想使其重要性加倍。 我知道可以使用功能得分,我猜我可以通过脚本得分。 我试图向得 ..
发布时间:2020-10-28 01:33:22 其他开发

如何在xgboost中访问单个决策树的权重?

我正在使用xgboost进行排名 param = {'objective':'rank:pairwise','booster ':'gbtree'} 据我了解,通过计算获知决策的加权总和可以实现梯度增强树木。如何获得分配给每个学习的助推器的权重?我想在训练后尝试对权重进行后处理,以加快预测步骤,但我不知道如何获取各个权重。 使用 dump_model()时,可以在创建的 ..
发布时间:2020-10-19 19:14:56 Python

如何在提升中实施决策树

我正在实现将使用CART和C4.5的AdaBoost(Boosting).我读了有关AdaBoost的文章,但是我找不到如何将AdaBoost与决策树结合的很好的解释.假设我有具有n个示例的数据集D.我将D分为TR培训示例和TE测试示例. 假设TR.count = m, 所以我将权重设置为1/m,然后使用TR来构建树,使用TR对其进行测试以得到错误的示例,并使用TE进行测试以计算误差.然后,我更改 ..
发布时间:2020-08-22 20:21:17 其他开发

我可以使用XGBoost增强其他模型(例如,朴素贝叶斯,随机森林)吗?

我正在从事欺诈分析项目,因此需要一些帮助.以前,我使用SAS Enterprise Miner来了解有关增强/集成技术的更多信息,并且我了解到增强可以帮助改善模型的性能. 当前,我的小组已在Python上完成了以下模型:朴素贝叶斯,随机森林和神经网络我们想使用XGBoost来改善F1得分.我不确定这是否可行,因为我只遇到过有关如何单独执行XGBoost或Naive Bayes的教程. ..
发布时间:2020-05-04 10:11:09 AI人工智能

分类结果取决于random_state?

我想使用scikit-learn(sklearn)实现AdaBoost模型.我的问题类似于另一个问题,但并非完全相同.据我了解,文档用于根据前面的链接随机划分训练和测试集.因此,如果我理解正确,那么我的分类结果就不应依赖于种子,这是正确的吗?我是否应该担心我的分类结果是否取决于random_state变量? 解决方案 您的分类分数取决于random_state.就像@Ujjwal正确说的那 ..