DeepRL: From On-Policy to Off-Policy

1 Why Off-Policy ?

On-policy存在的问题：第一种在策略梯度方法时候，需要每个训练周期分为两个阶段：

$\theta$ 的执行者，策略梯度优化的目标是：

max {\overset{―}{R}}_{θ} = \sum_{τ} R (τ) \cdot p_{θ} (τ)

即最大化执行者在所有可能轨迹上的总回报的期望。

$\theta$ $p_{\theta}(\tau)$ $\theta$ 有关，那么只需要考虑这一项的梯度。不难求出这一项的梯度展开如下

\begin{matrix} p_{θ} (τ) = p (s_{1}) p (a_{1} | s_{1}) p (s_{2} | s_{1}, a_{1}) \dots p (s_{T}) \\ \nabla p_{θ} (τ) = p_{θ} (τ) \cdot \nabla \log p_{θ} (τ) \end{matrix}

$\nabla_{\theta} p(s_i|\cdot) = 0$ 。于是我们计算出这一项梯度为：

\begin{matrix} \nabla p_{θ} (τ) = p_{θ} (τ) \sum_{t = 1}^{T} \nabla_{θ} \log p (a_{t} | s_{t}) \end{matrix}

所以目标函数的梯度可以写为：

\begin{matrix} \nabla {\overset{―}{R}}_{θ} = \sum_{τ} p_{θ} (τ) \cdot R (τ) \sum_{t = 1}^{T} \nabla_{θ} \log p (a_{t} | s_{t}) \\ = E_{τ \sim p_{θ} (τ)} [\sum_{t = 1}^{T} R (τ) \cdot \nabla_{θ} \log p (a_{t} | s_{t})] \\ = E_{(s_{t}, a_{t}) \sim π_{θ}} [A (s_{t}, a_{t}) \cdot \nabla_{θ} \log p (a_{t} | s_{t})] \\ \approx \frac{1}{N} \sum_{i = 1}^{N} \sum_{t = 1}^{T_{i} - 1} A (s_{t}, a_{t}) \nabla_{θ} \log p (a_{t} | s_{t}) \end{matrix}

注意最后参数要向着目标函数值增大的方向更新，所以时加上梯度乘以学习率。最后使用了优势函数来替换每一个episode的总体回报。常见的优势函数设计如下：

A (s_{t}, a_{t}) = \sum_{t^{'} = t} γ^{t^{'} - t} \cdot r_{t^{'}}, γ < 1

策略梯度作为一种on-policy方法，阶段一中需要收集大量的轨迹数据，也就是多组学习者和环境交互的轨迹。这是一个非常耗时的过程，但在训练周期中收集的数据只能被用来更新一次参数，下一个周期就要重新收集(因为轨迹和学习参数相关！)，这会导致训练的效率极低。

于是会自然的提出一个问题：我们是否可以从执行者参数无关的分布中采集数据？

重要性采样就是为了从一个新的分布中采样来替换旧的分布

$P(X)$ ，它的期望值可以这样计算：

\begin{aligned} E_{x \sim p (x)} [f (x)] & = \int p (x) f (x) d x \\ = \int q (x) \frac{p (x)}{q (x)} f (x) d x \\ = E_{x \sim q (x)} [\frac{p (x)}{q (x)} f (x)] \end{aligned}

$q(X)$ $q(X)$ 并不是随便选择的，它需要至少符合下面的条件，才能保证期望的相等(无偏性)。

$q(x)$ 才算一个好的分布? 在无偏的背景下考虑方差，方差应该也要尽可能一致。

\begin{matrix} V a r_{x \sim p (x)} (f (x)) = E_{p} [f^{2} (x)] - E_{p}^{2} [f (x)] \\ V a r_{x \sim q (x)} (\frac{p (x)}{q (x)} f (x)) = E_{p} [\frac{p (x)}{q (x)} f^{2} (x)] - E_{p}^{2} [f (x)] \end{matrix}

$p(x)$ $q(x)$ 尽可能一致的时候(分布相似，有点像废话)方差的差距才会比较小。

既然可以用一个新的分布采样原来的分布，那么我们就可以收集一次数据，更新多次模型参数。新的梯度如下：

\begin{matrix} E_{(s_{t}, a_{t}) \sim π_{θ^{'}}} [\frac{p_{θ} (s_{t}, a_{t})}{p_{θ^{'}} (s_{t}, a_{t})} A^{θ^{'}} (s_{t}, a_{t}) \cdot \nabla_{θ} \log p (a_{t} | s_{t})] \\ = E_{(s_{t}, a_{t}) \sim π_{θ^{'}}} [\frac{p_{θ} (a_{t} | s_{t}) p_{θ} (s_{t})}{p_{θ^{'}} (a_{t} | s_{t}) p_{θ^{'}} (s_{t})} A^{θ^{'}} (s_{t}, a_{t}) \cdot \nabla_{θ} \log p (a_{t} | s_{t})] \\ = E_{(s_{t}, a_{t}) \sim π_{θ^{'}}} [\frac{p_{θ} (a_{t} | s_{t})}{p_{θ^{'}} (a_{t} | s_{t})} A^{θ^{'}} (s_{t}, a_{t}) \cdot \nabla_{θ} \log p (a_{t} | s_{t})] \end{matrix}

此时的目标函数变为：

J^{θ^{'}} (θ) = E_{(s_{t}, a_{t}) \sim π_{θ^{'}}} [\frac{p_{θ} (a_{t} | s_{t})}{p_{θ^{'}} (a_{t} | s_{t})} A^{θ^{'}} (s_{t}, a_{t})]

这时候我们需要约束学习的模型参数和采样的模型参数差距不能特别大，为此一个直觉的想法时，在目标函数上增加一项KL散度，使得两个参数下的策略空间的分布相似。这就是近端策略梯度优化：

J_{P P O}^{θ^{'}} (θ) = E_{(s_{t}, a_{t}) \sim π_{θ^{'}}} [\frac{p_{θ} (a_{t} | s_{t})}{p_{θ^{'}} (a_{t} | s_{t})} A^{θ^{'}} (s_{t}, a_{t})] - β K L (θ, θ^{'})

$\beta$ ：

事实上这个KL也不是很好算，如何避免计算？

J_{P P O 2}^{θ^{'}} (θ) \approx E_{(s_{t}, a_{t}) \sim π_{θ^{'}}} [min (\frac{p_{θ} (a_{t} | s_{t})}{p_{θ^{'}} (a_{t} | s_{t})} A^{θ^{'}} (s_{t}, a_{t}), c l i p (\frac{p_{θ} (a_{t} | s_{t})}{p_{θ^{'}} (a_{t} | s_{t})}, 1 - ϵ, 1 + ϵ) A^{θ^{'}} (s_{t}, a_{t}))]