为什么需要目标网络？ [英] Why is a target network required?

查看：24 发布时间：2022/3/1 23:24:44 deep-learning artificial-intelligence

本文介绍了为什么需要目标网络？的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

我想了解为什么目标网络在DQN中是必需的？我正在读一篇关于"通过深度强化学习实现人的水平控制"的论文

我理解Q-Learning。Q-Learning是一种基于值的强化学习算法，它学习状态-动作之间的"最佳"概率分布，从而在一系列时间步长上最大化其长期贴现回报。

q学习使用Bellman方程进行更新，q学习更新的单个步骤由

给出

Q(S, A) = Q(S, A) + $alpha$[R_(t+1) + $gamma$ (Q(s’,a;’) - Q(s,a)]

其中α和γ是学习和贴现因子。我可以理解强化学习算法会变得不稳定和发散。

使用体验重放缓冲区，以便我们不会忘记过去的体验，并取消为了解概率分布而提供的数据集的关联。
这就是我失败的地方。
让我把下面报纸上的这段话打断一下，以便讨论
- 对$Q$进行少量更新可能会显著更改策略，从而更改数据分布-了解这一部分。周期性地改变Q网络可能会导致不稳定和分布的改变。例如，如果我们总是左转或类似的情况。
- 以及操作值(Q)和目标值之间的相关性r + $gamma$ (argmax(Q(s’,a’))-这表示奖励+伽马*我对回报的预测，假设我采取了我认为在当前状态下最好的操作，并从那时起遵循我的政策。
- 我们使用迭代更新来针对仅定期更新的目标值调整操作值(Q)，从而降低与目标的相关性。

总而言之，目标网络是必需的，因为网络在每个时间步都在不断变化，并且"目标值"在每个时间步都在更新？

但是我不知道它将如何解决它？