强化学习&基础1.4 | reward奖励

智能体的目标是最大化期望累计奖励
《强化学习&基础1.4 | reward奖励》
我们把在时间t的回报定义为Gt,在t时间的时候智能体会选择动作At来使期望Gt最大化。通常智能体无法完全肯定地预测未来的奖励怎么样,他必须依赖于预测和估算
《强化学习&基础1.4 | reward奖励》
我们可以给公式乘上折扣率,来表示对未来回报的关注度,当gama靠近0表示只关注与眼前的利益,当gamma靠近1表示
对未来的回报和当前回报一样地注重。这在连续性任务中是十分重要滴,因为没有停止点,折扣率防止了智能体无限地关注未来的回报。

《强化学习&基础1.4 | reward奖励》
在连续性任务中,折扣率显得十分重要。因为要最大化累计奖励,在无限的feature状况下是很困难的,所以我们使用折扣率避免“看得过远”。

    原文作者:ASKCOS
    原文地址: https://blog.csdn.net/weixin_43236007/article/details/89292596
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞