当前位置：网站首页>强化学习2

强化学习2

2022-07-22 18:47:00 【大力力无穷】

马尔可夫过程（MP) 马尔可夫奖励过程（MRP）
只取决于现在：马尔可夫
Horizon:一个回合的长度（每个回合最大的时间步数）由有限个步数决定
Return：（回报）奖励的逐步叠加
需要折扣因子的原因：有些马尔可夫过程带环，没有终结（避免无穷）
把这个不确定性表示出来，希望尽可能得到模型，而不是在未来某一点得到奖励
希望立即达到奖励
超参数：Discount factor
贝尔曼方程
蒙特卡曼
动态规划：当最后更新状态跟上次状态差别不大的时候停止（Bootstrapping)
.断续器
状态-价值函数

版权声明
本文为[大力力无穷]所创，转载请带上原文链接，感谢
https://blog.csdn.net/zengdanli/article/details/125774907

边栏推荐

猜你喜欢

随机推荐