强化学习1——策略,价值函数,模型 -ag凯发k8国际
文章目录
- 强化学习——概述
- 组成
- 策略:行为函数
- 价值函数:状态和行为的得分
- 模型:整个世界的表达
组成
策略:行为函数
分为两种:
概率型策略:从策略π\piπ中,按照概率π(a∣s)=p(at=a∣st=s)\pi(\mathrm{a} \mid \mathrm{s})=\mathrm{p}\left(\mathrm{a}_{\mathrm{t}}=\mathrm{a} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right)π(a∣s)=p(at=a∣st=s)采样一个a。
确定型策略:从策略π\piπ中,选择一个最大概率的策略a∗=argmaxaπ(a∣s)a^{*}=\arg \max _{a} \pi(a \mid s)a∗=argmaxaπ(a∣s)
价值函数:状态和行为的得分
已知π\piπ的时候能得到多少奖励(期望平均值)
分为两种:
状态价值函数:衡量一个状态的价值(其实是一个状态采取所有行为后的一个价值的期望值)
vπ(s)≐eπ[gt∣st=s]=eπ[∑k=0∞γkrt k 1∣st=s],for all s∈sv_{\pi}(s) \doteq \mathbb{e}_{\pi}\left[g_{t} \mid s_{t}=s\right]=\mathbb{e}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} r_{t k 1} \mid s_{t}=s\right], \text { for all } s \in \mathcal{s}vπ(s)≐eπ[gt∣st=s]=eπ[∑k=0∞γkrtk1∣st=s], for all s∈s
q-函数:衡量一个状态采取一个动作后的价值(是强化学习的一个目标,最高的q-函数值对应的a就是最有策略采取的动作)
qπ(s,a)≐eπ[gt∣st=s,at=a]=eπ[∑k=0∞γkrt k 1∣st=s,at=a]q_{\pi}(s, a) \doteq \mathbb{e}_{\pi}\left[g_{t} \mid s_{t}=s, a_{t}=a\right]=\mathbb{e}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} r_{t k 1} \mid s_{t}=s, a_{t}=a\right]qπ(s,a)≐eπ[gt∣st=s,at=a]=eπ[∑k=0∞γkrtk1∣st=s,at=a]
模型:整个世界的表达
预测下一个环境(世界,状态)
两部分组成:
1 状态s采取了一个策略a,有多少概率到达s′s^{\prime}s′。
2 状态s采取了一个策略a,能得到多大的奖励
predict the next state: pss′a=p[st 1=s′∣st=s,at=a]predict the next reward: rsa=e[rt 1∣st=s,at=a]\begin{aligned} &\text { predict the next state: } \mathcal{p}_{s s^{\prime}}^{a}=\mathbb{p}\left[s_{t 1}=s^{\prime} \mid s_{t}=s, a_{t}=a\right]\\ &\text { predict the next reward: } \mathcal{r}_{s}^{a}=\mathbb{e}\left[r_{t 1} \mid s_{t}=s, a_{t}=a\right] \end{aligned} predict the next state: pss′a=p[st1=s′∣st=s,at=a] predict the next reward: rsa=e[rt1∣st=s,at=a]
总结
以上是ag凯发k8国际为你收集整理的强化学习1——策略,价值函数,模型的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: 线性规划——规范型,标准型,基阵、基本解
- 下一篇: 最优化——单纯形法学习心得