当前位置：网站首页>【强化学习笔记】强化学习中的常见符号

【强化学习笔记】强化学习中的常见符号

2022-06-25 07:13:00 【Allenpandas】

符号符号释义
 ≐ \doteq ≐定义符号
 ≈ \approx ≈约等于
 ϵ \epsilon ϵ ϵ \epsilon ϵ贪心策略中随机采取动作的概率
 γ \gamma γ折扣系数
 λ \lambda λ迹中的衰减率
 ← \leftarrow ←赋值符号
 s s s,  s ′ s' s′状态  s s s
 a a a动作  a a a
 r r r收益  r r r
 t t t离散的时间步，或称为时刻
 π \pi π策略（决策规则）
 π ( s ) \pi(s) π(s)根据确定性策略 π \pi π 在状态  s s s 时选取的动作
 π ( a ∣ s ) \pi(a|s) π(a∣s)根据随机性策略 π \pi π 在状态  s s s 时选取的动作  a a a 的概率
 A t A_{t} At​ t t t 时刻的动作
 S t S_{t} St​ t t t 时刻的状态，通常由  S t − 1 S_{t-1} St−1​ 和  A t − 1 A_{t-1} At−1​ 随机决定
 R t R_{t} Rt​ t t t 时刻的收益，通常由  S t − 1 S_{t-1} St−1​ 和  A t − 1 A_{t-1} At−1​ 随机决定
 G t G_t Gt​ t t t 时刻的回报（是个期望值）
 p ( s ′ , r ∣ s , a ) p(s', r |s, a) p(s′,r∣s,a)从状态  s s s 采取动作  a a a 转移到状态  s ′ s' s′ 并获得收益  r r r 的概率
 p ( s ′ ∣ s , a ) p(s' |s, a) p(s′∣s,a)从状态  s s s 采取动作  a a a 转移到状态  s ′ s' s′ 的概率
 r ( s , a ) r(s, a) r(s,a)从状态  s s s 采取动作  a a a 获得的即时收益的期望
 r ( s , a , s ′ ) r(s, a, s') r(s,a,s′)从状态  s s s 采取动作  a a a 转移到状态  s ′ s' s′ 获得的即时收益的期望
 v π ( s ) v_\pi(s) vπ​(s)状态  s s s 在策略  π \pi π 下的价值（期望回报）
 v ∗ ( s ) v_*(s) v∗​(s)状态  s s s 在最优策略下的价值
 q π ( s , a ) q_\pi(s, a) qπ​(s,a)状态  s s s 在策略  π \pi π 下采取动作  a a a 的价值
 q ∗ ( s , a ) q_*(s, a) q∗​(s,a)状态  s s s 在最优策略下采取动作  a a a 的价值
 V V V,  V t V_{t} Vt​状态价值函数
 Q Q Q,  Q t Q_{t} Qt​动作价值函数

符号	符号释义
$\doteq$	定义符号
$\approx$	约等于
$\epsilon$	$\epsilon$ 贪心策略中随机采取动作的概率
$\gamma$	折扣系数
$\lambda$	迹中的衰减率
$\leftarrow$	赋值符号
$s$ , $s^{'}$	状态 $s$
$a$	动作 $a$
$r$	收益 $r$
$t$	离散的时间步，或称为时刻
$\pi$	策略（决策规则）
$\pi(s)$	根据确定性策略 $\pi$ 在状态 $s$ 时选取的动作
$\pi(a\|s)$	根据随机性策略 $\pi$ 在状态 $s$ 时选取的动作 $a$ 的概率
$A_{t}$	$t$ 时刻的动作
$S_{t}$	$t$ 时刻的状态，通常由 $S_{t-1}$ 和 $A_{t-1}$ 随机决定
$R_{t}$	$t$ 时刻的收益，通常由 $S_{t-1}$ 和 $A_{t-1}$ 随机决定
$G_t$	$t$ 时刻的回报（是个期望值）
$p (s^{'}, r ∣ s, a)$	从状态 $s$ 采取动作 $a$ 转移到状态 $s^{'}$ 并获得收益 $r$ 的概率
$p (s^{'} ∣ s, a)$	从状态 $s$ 采取动作 $a$ 转移到状态 $s^{'}$ 的概率
$r (s, a)$	从状态 $s$ 采取动作 $a$ 获得的即时收益的期望
$r (s, a, s^{'})$	从状态 $s$ 采取动作 $a$ 转移到状态 $s^{'}$ 获得的即时收益的期望
$v_\pi(s)$	状态 $s$ 在策略 $\pi$ 下的价值（期望回报）
$v_*(s)$	状态 $s$ 在最优策略下的价值
$q_\pi(s, a)$	状态 $s$ 在策略 $\pi$ 下采取动作 $a$ 的价值
$q_*(s, a)$	状态 $s$ 在最优策略下采取动作 $a$ 的价值
$V$ , $V_{t}$	状态价值函数
$Q$ , $Q_{t}$	动作价值函数

原网站

版权声明
本文为[Allenpandas]所创，转载请带上原文链接，感谢
https://blog.csdn.net/m0_38068876/article/details/125435431

当前位置：网站首页>【强化学习笔记】强化学习中的常见符号

【强化学习笔记】强化学习中的常见符号

边栏推荐

猜你喜欢

随机推荐