亚当方法的学习率好吗? [英] Is it good learning rate for Adam method?

查看:6
本文介绍了亚当方法的学习率好吗?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在训练我的方法。我得到的结果如下。这是一个很好的学习速度吗?如果不是,它是高还是低? 这是我的结果

lr_policy: "step"
gamma: 0.1
stepsize: 10000
power: 0.75
# lr for unnormalized softmax
base_lr: 0.001
# high momentum
momentum: 0.99
# no gradient accumulation
iter_size: 1
max_iter: 100000
weight_decay: 0.0005
snapshot: 4000
snapshot_prefix: "snapshot/train"
type:"Adam"

这是参考资料

在低学习率的情况下,改善将是线性的。在高学习率的情况下,他们将开始看起来更具指数性。更高的学习率会更快地减少损失,但他们会陷入更糟糕的损失价值

推荐答案

学习率看起来有点高。对于我的口味来说,曲线下降得太快了,很快就变平了。如果我想获得更高的表现,我会尝试0.0005或0.0001作为基本学习率。无论如何,如果你发现这不起作用,你可以在几个时代之后退出。

然而,您必须问自己的问题是,您需要多少性能,以及您距离实现所需的性能有多近。我的意思是,你可能正在训练一个特定目的的神经网络。通常情况下,您可以通过增加网络容量来获得更高的性能,而不是微调学习速度,这即使不是完美的,也是相当好的。

这篇关于亚当方法的学习率好吗?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆