我是否需要缩放训练数据中的测试数据和因变量? [英] Do I need to scale test data and Dependent variable in the train data?

查看:41
本文介绍了我是否需要缩放训练数据中的测试数据和因变量?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我不熟悉扩展机器学习中的功能的概念,我阅读与一个其他功能相比,当一个功能范围很大时,缩放将很有用.但是,如果我选择缩放培训数据,那么:

I am new to the concept of scaling a feature in Machine Learning, I read that scaling will be useful when one feature range is very high when compared to other features. But if I choose to scale the training data then:

  1. 我可以缩放具有高范围的一项功能吗?
  2. 如果我缩放火车数据的整个 X ,那么我还需要缩放火车数据和整个测试数据的 y 吗?
  1. Can I just scale that one feature that has high range?
  2. If I scale the entire X of train data then do I need to also scale the y of train data and entire test data?

推荐答案

  1. 是的,您可以缩放具有高范围的一个特征,但是请确保没有其他具有高范围的特征,因为如果存在且尚未缩放,则该特征将使算法忽略其贡献缩放的特征,即使结果稍有变化也能影响结果(输出值).建议(但不是强制性的)缩放训练集中的所有功能.
  2. 您不需要缩放火车数据的Y,因为算法或模型会将参数值设置为获得最低Cost(误差),即无论如何都是k {Y(output)-Y(original)}.但是如果对Xtrain进行了缩放,则在将其输入模型之前,需要对测试集(特征值,Xtest)(仅在对Ytrain进行缩放时才对Ytest进行缩放)(使用训练均值和方差)进行缩放.此数据之前已在缩放范围的数据上进行过训练,因此,如果测试数据的特征值与训练数据中的相应特征范围相差很大的值,则模型将为相应的测试数据输出错误的预测.

这篇关于我是否需要缩放训练数据中的测试数据和因变量?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
相关文章
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆