markov-decision-process相关内容

强化学习有什么政策?

我看过这样的话: 策略定义了学习代理在给定时间的行为方式.大致 从政策上讲,策略是从感知到的环境状态到处于这些状态时要采取的行动的映射. 但是仍然不完全了解.强化学习到底有什么政策? 解决方案 该定义是正确的,但如果您是第一次看到它,则该定义不是立即显而易见的.让我这样说:策略是代理的策略. 例如,想象一个世界,机器人在房间内移动,任务是到达目标点(x,y),并在该点获得 ..