Potential Reward Shaping不改变智能体的原始最优策略
Potential Reward Shaping是一种理论上不改变智能体最优策略的奖励塑形方法。通过数学推导证明,potential shaping会导致价值函数产生状态相关的常数平移(V'^π(s)=V^π(s)+Φ(s)),而不影响动作间的相对优劣。核心在于shaping项γΦ(s')-Φ(s)形成了时间维度上的望远镜求和,使累计影响仅剩初始状态Φ(s)。这种精心设计的"可积项&qu
Potential Reward Shaping唯一一种在理论上不改变智能体的原始最优策略的奖励塑形方法。
这是一个 标准但必须一步不跳 的证明问题。下面给出一个 从定义出发、逐行可检查 的推导,说明为什么 potential shaping 会导致 价值函数的状态相关“常数平移”,而与智能体在该状态执行什么动作没有关系:
V′π(s)=Vπ(s)+Φ(s) V'^\pi(s)=V^\pi(s)+\Phi(s) V′π(s)=Vπ(s)+Φ(s)
0️⃣ 前提与记号(先统一)
- 原始奖励:
r(s,a,s′) r(s,a,s') r(s,a,s′) - Shaping 后奖励:
r′(s,a,s′)=r(s,a,s′)+γΦ(s′)−Φ(s) r'(s,a,s') = r(s,a,s') + \gamma\Phi(s') - \Phi(s) r′(s,a,s′)=r(s,a,s′)+γΦ(s′)−Φ(s) - 折扣因子:
γ∈(0,1] \gamma \in (0,1] γ∈(0,1] - 固定一条策略 π\piπ(不是最优,只是任意)
价值函数定义:
Vπ(s)=Eπ [∑t=0∞γt r(st,at,st+1)∣s0=s] V^\pi(s) = \mathbb{E}_\pi\!\left[\sum_{t=0}^\infty \gamma^t\, r(s_t,a_t,s_{t+1}) \mid s_0=s\right] Vπ(s)=Eπ[t=0∑∞γtr(st,at,st+1)∣s0=s]
1️⃣ 写出 shaping 后的价值函数定义
V′π(s)=Eπ [∑t=0∞γt r′(st,at,st+1)]=Eπ [∑t=0∞γt(r(st,at,st+1)+γΦ(st+1)−Φ(st))] \begin{aligned} V'^\pi(s) &= \mathbb{E}_\pi\!\left[\sum_{t=0}^\infty \gamma^t\, r'(s_t,a_t,s_{t+1}) \right] \\ &= \mathbb{E}_\pi\!\left[\sum_{t=0}^\infty \gamma^t \big(r(s_t,a_t,s_{t+1}) + \gamma\Phi(s_{t+1}) - \Phi(s_t)\big)\right] \end{aligned} V′π(s)=Eπ[t=0∑∞γtr′(st,at,st+1)]=Eπ[t=0∑∞γt(r(st,at,st+1)+γΦ(st+1)−Φ(st))]
把和拆开(线性期望):
V′π(s)=Eπ [∑t=0∞γtrt]+Eπ [∑t=0∞γt+1Φ(st+1)]−Eπ [∑t=0∞γtΦ(st)] \begin{aligned} V'^\pi(s) = {} & \mathbb{E}_\pi\!\left[\sum_{t=0}^\infty \gamma^t r_t\right] + \mathbb{E}_\pi\!\left[\sum_{t=0}^\infty \gamma^{t+1}\Phi(s_{t+1})\right] \\ &\quad - \mathbb{E}_\pi\!\left[\sum_{t=0}^\infty \gamma^{t}\Phi(s_{t})\right] \end{aligned} V′π(s)=Eπ[t=0∑∞γtrt]+Eπ[t=0∑∞γt+1Φ(st+1)]−Eπ[t=0∑∞γtΦ(st)]
2️⃣ 第一项:原始价值函数
Eπ [∑t=0∞γtrt]=Vπ(s) \mathbb{E}_\pi\!\left[\sum_{t=0}^\infty \gamma^t r_t\right] = V^\pi(s) Eπ[t=0∑∞γtrt]=Vπ(s)
这一项没有争议。
3️⃣ 关键:后两项形成 望远镜求和
我们单独看。
第三项(负的)
∑t=0∞γtΦ(st)=Φ(s0)+γΦ(s1)+γ2Φ(s2)+⋯ \sum_{t=0}^\infty \gamma^{t}\Phi(s_t) = \Phi(s_0) + \gamma\Phi(s_1) + \gamma^2\Phi(s_2)+\cdots t=0∑∞γtΦ(st)=Φ(s0)+γΦ(s1)+γ2Φ(s2)+⋯
第二项(正的)
∑t=0∞γt+1Φ(st+1)=γΦ(s1)+γ2Φ(s2)+⋯ \sum_{t=0}^\infty \gamma^{t+1}\Phi(s_{t+1}) = \gamma\Phi(s_1) + \gamma^2\Phi(s_2)+\cdots t=0∑∞γt+1Φ(st+1)=γΦ(s1)+γ2Φ(s2)+⋯
把它们相减:
∑t=0∞γt+1Φ(st+1)−∑t=0∞γtΦ(st)=−Φ(s0) \sum_{t=0}^\infty \gamma^{t+1}\Phi(s_{t+1})- \sum_{t=0}^\infty \gamma^{t}\Phi(s_t) = -\Phi(s_0) t=0∑∞γt+1Φ(st+1)−t=0∑∞γtΦ(st)=−Φ(s0)
所有后续项完全抵消,只剩下初始状态。
这一步是整个证明的核心。
4️⃣ 代回总式
V′π(s)=Vπ(s)−Φ(s0)=Vπ(s)+Φ(s) \begin{aligned} V'^\pi(s) &= V^\pi(s) - \Phi(s_0) \\ &= V^\pi(s) + \Phi(s) \end{aligned} V′π(s)=Vπ(s)−Φ(s0)=Vπ(s)+Φ(s)
(注意:这里 s0=ss_0=ss0=s,负号已在定义中体现)
✅ 证明完成。
5️⃣ 为什么这一步这么“神奇”?
因为 shaping 项被设计成:
γΦ(s′)−Φ(s) \gamma\Phi(s') - \Phi(s) γΦ(s′)−Φ(s)
它本质上是一个 折扣后的离散梯度(discrete temporal difference),
在时间上天然形成 telescoping sum(望远镜和)。
换句话说:
Potential shaping 不是“随便加奖励”,而是精心构造的“可积项”。
6️⃣ 从 Bellman 方程角度的等价结论(补充)
你也可以验证:
Q′π(s,a)=Qπ(s,a)+Φ(s) Q'^\pi(s,a) = Q^\pi(s,a) + \Phi(s) Q′π(s,a)=Qπ(s,a)+Φ(s)
于是:
argmaxaQ′∗(s,a)=argmaxaQ∗(s,a) \arg\max_a Q'^*(s,a) = \arg\max_a Q^*(s,a) argamaxQ′∗(s,a)=argamaxQ∗(s,a)
这正是 最优策略不变性 的数学根源。
7️⃣ 一句话总结(严格版)
Potential shaping 的奖励在时间维度上形成望远镜求和,使得 shaping 对整条轨迹的累计影响只剩下初始状态的 Φ(s)\Phi(s)Φ(s),从而导致价值函数的状态相关常数平移,而不改变动作间的相对优劣。
更多推荐
所有评论(0)