我对h2o分布式随机森林模型有一些疑问 [英] I have some questions about h2o distributed random forest model

查看:122
本文介绍了我对h2o分布式随机森林模型有一些疑问的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

根据DRF部分的常见问题解答中的H2O文档,在算法在训练过程中如何处理缺失值?"中提到了该注释.常见问题解答:

According to H2O docs in FAQ of the DRF section, this note is mentioned on the "How does the algorithm handle missing values during training?" FAQ:

注意:与GLM不同,在DRF中,数字值的处理方式与分类值相同.缺失值不会像平均值那样估算,就像GLM中的默认设置一样.

Note: Unlike in GLM, in DRF numerical values are handled the same way as categorical values. Missing values are not imputed with the mean, as is done by default in GLM.

我使用DRF算法来解决回归问题,但是当我看到此注释时,我感到很奇怪.如果我将所有数值转换为分类值以解决回归问题,那么我认为这是无稽之谈.

I use a DRF Algorithm to solve a regression problem, but when I saw this note, I felt strange. If I convert all numerical value to categorical value to solve regression problem, I think that it is nonsense.

这是我的问题.

  • 使用DRF算法是否需要将所有数值转换为分类值?

  • 使用DRF算法是否不需要将所有数值转换为分类值?

感谢您阅读我的问题.

推荐答案

否,H2O不需要您将所有数值转换为分类值.

No, H2O does not require you to convert all numerical values to categorical values.

如果要查看训练有素的H2O DRF模型如何处理不同的输入列,请按照以下说明查看MOJO.

If you want to view how trained H2O DRF models treat the different input columns, follow the instructions below for how to view a MOJO.

在下面的图片中请注意,数字列通过小于"值比较进行处理,分类列通过将某些级别发送给左子级而将某些级别发送给右子级来处理.

Note in the picture below that numerical columns are treated with a "less than" value comparison, and categorical columns are treated by sending some of the levels to the left child and some to the right child.

这篇关于我对h2o分布式随机森林模型有一些疑问的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆