XGBoost-国家/地区功能应该是标签还是热编码? [英] XGBoost - Country Feature should be labeld or one hot encoded?

查看:0
本文介绍了XGBoost-国家/地区功能应该是标签还是热编码?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我们的模型中有一个国家的特征,我们对它使用了标签编码器,例如:

BEL-1, US-2, ENG-3,

等...

XGBoost模型的最佳实践是将其用作数字还是对其执行一次热编码?

谢谢, TAL

推荐答案

没有黄金标准。

OHE更安全,因为它不会给类别引入人为的秩序。不利的一面是,它增加了具有多个唯一值的功能的内存占用,树可能会在数字功能上的拆分和如此多添加的新OHE功能之间找到平衡。通常(基于Kaggle竞赛)标签编码的性能与OHE一样好或更好。

为什么不同时尝试这两种方法,并在交叉验证中选择一种能为您的选择提供更好评估指标的方法?这样,您就可以将此选择视为另一种类型的功能工程。请注意,您可能需要分别为两个SCENARIOUS运行超参数优化,因为在某些情况下,像树深度这样的参数可能会非常不同。

这篇关于XGBoost-国家/地区功能应该是标签还是热编码?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆