如何在python scikit-learn随机森林中使用伪变量表示分类数据 [英] How to use dummy variable to represent categorical data in python scikit-learn random forest

查看：584 发布时间：2020/7/6 6:29:54 python scikit-learn scikits dummy-data

本文介绍了如何在python scikit-learn随机森林中使用伪变量表示分类数据的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我正在为scikit-learn的随机森林分类器生成特征向量.特征载体代表9个蛋白质氨基酸残基的名称.有20种可能的残基名称.因此，我使用20个虚拟变量代表一个残基名称，对于9个残基，我有180个虚拟变量.

I'm generating feature vector for random forest classifier of scikit-learn . The feature vector represents the name of 9 protein amino acid residues. There are 20 possible residue names. So, I use 20 dummy variables to represent one residue name, for 9 residue, I have 180 dummy variables.

例如，如果滑动窗口中的9个残基为:ARNDCQEGH(每个字母代表一个蛋白质残基的名称)，我的特征向量将为:

For example, if the 9 residues in the sliding window are: ARNDCQEGH (every one letter represent a name of a protein residue),my feature vector will be:

"True\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\t
False\tTrue\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\t
False\tFalse\tTrue\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\t
False\tFalse\tFalse\tTrue\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\t
False\tFalse\tFalse\tFalse\tTrue\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\t
False\tFalse\tFalse\tFalse\tFalse\tTrue\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\t
False\tFalse\tFalse\tFalse\tFalse\tFalse\tTrue\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\t
False\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tTrue\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\t
False\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tTrue\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\n"

此外，我尝试使用(1,0)替换(True，False)

Also, I tried to use (1,0) to replace (True,False)

在训练和测试了Scikit的随机森林分类器模型后，我发现它完全不起作用.但是Scikit的随机森林可以与我的其他数值数据一起使用.

After training and testing Scikit's random forest classifier model, I found it totally did not work. But Scikit's random forest can work with my other numerical data.

Scikit的随机森林可以处理分类变量还是虚拟变量?如果是这样，您能否提供一个示例说明其工作原理.

Can Scikit's random forest deal with categorical variable or dummy variable? If so, could you provide an example showing how it works.

这是我设置随机森林的方法:

Here is how I set the random forest:

clf=RandomForestClassifier (n_estimators=800, criterion='gini', n_jobs=12, max_depth=None, compute_importances=True, max_features='auto', min_samples_split=1,  random_state=None)

非常感谢！

如何在python scikit-learn随机森林中使用伪变量表示分类数据 [英] How to use dummy variable to represent categorical data in python scikit-learn random forest

问题描述

推荐答案

相关文章

Python最新文章

热门教程

热门工具

登录关闭

如何在python scikit-learn随机森林中使用伪变量表示分类数据 [英] How to use dummy variable to represent categorical data in python scikit-learn random forest

问题描述

推荐答案

相关文章

Python最新文章

热门教程

热门工具

登录 关闭

登录关闭