Potential Reward Shaping不改变智能体的原始最优策略

Potential Reward Shaping是一种理论上不改变智能体最优策略的奖励塑形方法。通过数学推导证明，potential shaping会导致价值函数产生状态相关的常数平移（V'^π(s)=V^π(s)+Φ(s)），而不影响动作间的相对优劣。核心在于shaping项γΦ(s')-Φ(s)形成了时间维度上的望远镜求和，使累计影响仅剩初始状态Φ(s)。这种精心设计的"可积项&qu

红烧code

659人浏览 · 2026-02-11 12:14:31

红烧code · 2026-02-11 12:14:31 发布

Potential Reward Shaping唯一一种在理论上不改变智能体的原始最优策略的奖励塑形方法。

这是一个 标准但必须一步不跳 的证明问题。下面给出一个 从定义出发、逐行可检查 的推导，说明为什么 potential shaping 会导致 价值函数的状态相关“常数平移”，而与智能体在该状态执行什么动作没有关系：

$V'^\pi(s)=V^\pi(s)+\Phi(s)$

0️⃣ 前提与记号（先统一）

原始奖励：
$r (s, a, s^{'})$
Shaping 后奖励：
$\gamma\Phi(s') - \Phi(s)$
折扣因子：
$\gamma \in (0,1]$
固定一条策略 $π\pi$ （不是最优，只是任意）

价值函数定义：

$V^\pi(s) = \mathbb{E}_\pi\!\left[\sum_{t=0}^\infty \gamma^t\, r(s_t,a_t,s_{t+1}) \mid s_0=s\right]$

1️⃣ 写出 shaping 后的价值函数定义

$\begin{aligned} V'^\pi(s) &= \mathbb{E}_\pi\!\left[\sum_{t=0}^\infty \gamma^t\, r'(s_t,a_t,s_{t+1}) \right] \\ &= \mathbb{E}_\pi\!\left[\sum_{t=0}^\infty \gamma^t \big(r(s_t,a_t,s_{t+1}) + \gamma\Phi(s_{t+1}) - \Phi(s_t)\big)\right] \end{aligned}$

把和拆开（线性期望）：

$\begin{aligned} V'^\pi(s) = {} & \mathbb{E}_\pi\!\left[\sum_{t=0}^\infty \gamma^t r_t\right] + \mathbb{E}_\pi\!\left[\sum_{t=0}^\infty \gamma^{t+1}\Phi(s_{t+1})\right] \\ &\quad - \mathbb{E}_\pi\!\left[\sum_{t=0}^\infty \gamma^{t}\Phi(s_{t})\right] \end{aligned}$

2️⃣ 第一项：原始价值函数

$\mathbb{E}_\pi\!\left[\sum_{t=0}^\infty \gamma^t r_t\right] = V^\pi(s)$

这一项没有争议。

3️⃣ 关键：后两项形成望远镜求和

我们单独看。

第三项（负的）

$\sum_{t=0}^\infty \gamma^{t}\Phi(s_t) = \Phi(s_0) + \gamma\Phi(s_1) + \gamma^2\Phi(s_2)+\cdots$

第二项（正的）

$\sum_{t=0}^\infty \gamma^{t+1}\Phi(s_{t+1}) = \gamma\Phi(s_1) + \gamma^2\Phi(s_2)+\cdots$

把它们相减：

$\sum_{t=0}^\infty \gamma^{t+1}\Phi(s_{t+1})- \sum_{t=0}^\infty \gamma^{t}\Phi(s_t) = -\Phi(s_0)$

所有后续项完全抵消，只剩下初始状态。
这一步是整个证明的核心。

4️⃣ 代回总式

$\begin{aligned} V'^\pi(s) &= V^\pi(s) - \Phi(s_0) \\ &= V^\pi(s) + \Phi(s) \end{aligned}$

（注意：这里 $s_0=s$ ，负号已在定义中体现）

✅ 证明完成。

5️⃣ 为什么这一步这么“神奇”？

因为 shaping 项被设计成：

$\gamma\Phi(s') - \Phi(s)$

它本质上是一个 折扣后的离散梯度（discrete temporal difference），
在时间上天然形成 telescoping sum（望远镜和）。

换句话说：

Potential shaping 不是“随便加奖励”，而是精心构造的“可积项”。

6️⃣ 从 Bellman 方程角度的等价结论（补充）

你也可以验证：

$Q'^\pi(s,a) = Q^\pi(s,a) + \Phi(s)$

于是：

$arg\max_a Q'^*(s,a) = \arg\max_a Q^*(s,a)$

这正是 最优策略不变性 的数学根源。

7️⃣ 一句话总结（严格版）

Potential shaping 的奖励在时间维度上形成望远镜求和，使得 shaping 对整条轨迹的累计影响只剩下初始状态的 $Φ(s)\Phi(s)$ ，从而导致价值函数的状态相关常数平移，而不改变动作间的相对优劣。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

医学数据已成为驱动临床决策、药物研发及公共卫生治理的核心资产

例如在癌症治疗的试验中，有些患者失去了联系，或者他们的生存时间长于试验的研究期，这时我们无法获得这部分患者真正的生存时间。而在判别分析中，用于建立判别准则的样品的分类是已知的，判别的目的是根据建立的判别准则判断新的样品的种类。对于跨学科的探索者来说，利用AI工具去解析医学数据中那些潜在的、非线性的复杂关系，既是技术挑战，也是实现医学创新的必经之路。过去，医学数据更多被视为电子病历中的静态记录，而今

2048 AI社区

LangChain VectorStoreRetriever如何加入链？（使用Runnable组合、使用create_retrieval_chain）

prompt| llm将加入链的本质是：把“检索”作为一个 Runnable 节点插入到数据流中。Retriever 是 RunnablePrompt 是 RunnableLLM 是 RunnableParser 也是 Runnable因此所有组件都可以自由组合。使用 LCEL明确分离 retriever 和 combine_docs控制检索策略做好文档格式化。

2048 AI社区

从“手术刀”到“剧本杀”：医学统计逻辑如何破解文化行业 AI 落地难题

一个短剧的“爽感”可能由：反转频率、打脸力度、台词密度、配乐节奏等 20 个指标组成。这些指标高度相关。“节奏因子”、“情绪因子”、“视觉因子”。这解决了小样本数据下“维度灾难”的问题。在数据很少时，直接用 20 个变量跑模型会过拟合，但用 3 个主成分则非常稳健。使用psych包进行因子旋转，找到最具解释力的文化维度。# nfactors=3 提取三个核心文化维度# 查看哪些原始指标贡献了“爽感