当前位置:网站首页>【强化学习笔记】强化学习中的常见符号

【强化学习笔记】强化学习中的常见符号

2022-06-25 07:13:00 Allenpandas

符号符号释义
≐ \doteq 定义符号
≈ \approx 约等于
ϵ \epsilon ϵ ϵ \epsilon ϵ贪心策略中随机采取动作的概率
γ \gamma γ折扣系数
λ \lambda λ迹中的衰减率
← \leftarrow 赋值符号
s s s, s ′ s' s状态 s s s
a a a动作 a a a
r r r收益 r r r
t t t离散的时间步,或称为时刻
π \pi π策略(决策规则)
π ( s ) \pi(s) π(s)根据确定性策略 π \pi π 在状态 s s s 时选取的动作
π ( a ∣ s ) \pi(a|s) π(as)根据随机性策略 π \pi π 在状态 s s s 时选取的动作 a a a 的概率
A t A_{t} At t t t 时刻的动作
S t S_{t} St t t t 时刻的状态,通常由 S t − 1 S_{t-1} St1 A t − 1 A_{t-1} At1 随机决定
R t R_{t} Rt t t t 时刻的收益,通常由 S t − 1 S_{t-1} St1 A t − 1 A_{t-1} At1 随机决定
G t G_t Gt t t t 时刻的回报(是个期望值)
p ( s ′ , r ∣ s , a ) p(s', r |s, a) p(s,rs,a)从状态 s s s 采取动作 a a a 转移到状态 s ′ s' s 并获得收益 r r r 的概率
p ( s ′ ∣ s , a ) p(s' |s, a) p(ss,a)从状态 s s s 采取动作 a a a 转移到状态 s ′ s' s 的概率
r ( s , a ) r(s, a) r(s,a)从状态 s s s 采取动作 a a a 获得的即时收益的期望
r ( s , a , s ′ ) r(s, a, s') r(s,a,s)从状态 s s s 采取动作 a a a 转移到状态 s ′ s' s 获得的即时收益的期望
v π ( s ) v_\pi(s) vπ(s)状态 s s s 在策略 π \pi π 下的价值(期望回报)
v ∗ ( s ) v_*(s) v(s)状态 s s s 在最优策略下的价值
q π ( s , a ) q_\pi(s, a) qπ(s,a)状态 s s s 在策略 π \pi π 下采取动作 a a a 的价值
q ∗ ( s , a ) q_*(s, a) q(s,a)状态 s s s 在最优策略下采取动作 a a a 的价值
V V V, V t V_{t} Vt状态价值函数
Q Q Q, Q t Q_{t} Qt动作价值函数
原网站

版权声明
本文为[Allenpandas]所创,转载请带上原文链接,感谢
https://blog.csdn.net/m0_38068876/article/details/125435431