目录

摘要

一、MDP:强化学习的"游戏规则说明书"

1.1 什么是MDP?

1.2 MDP的五元组定义

1.3 马尔可夫性质

二、奖励(Reward):智能体的"评分系统"

2.1 即时奖励

2.2 累积奖励(回报)

2.3 折扣因子 γ 的影响

三、策略(Policy):智能体的"行动指南"

3.1 策略的定义

确定性策略

随机策略

3.2 策略的数学性质

四、价值函数(Value Function):评估"这步棋值多少钱"

4.1 状态价值函数 V(s)

4.2 动作价值函数 Q(s, a)

4.3 V 和 Q 的关系

4.4 最优价值函数

 五、贝尔曼方程:价值函数的"递归定义"

5.1 贝尔曼期望方程(针对 $V^\pi$)

5.2 贝尔曼期望方程(针对 $Q^\pi$)

5.3 贝尔曼最优方程

5.4 贝尔曼方程的直觉图示

六、公式速查表

七、常见疑问解答

Q1:为什么需要折扣因子 γ

 Q2:V 和 Q 只需要一个不就够了吗?

Q3:贝尔曼方程有什么用?

八、总结

核心公式记忆口诀 


 

摘要

强化学习的论文和教程里满是数学公式,看得人头大?

别怕!本文将用最通俗的大白话带你拆解强化学习的四大数学基石:

  • MDP:强化学习问题的"游戏规则说明书"

  • 奖励:告诉智能体什么是好、什么是坏的"评分系统"

  • 策略:智能体的"行动指南"

  • 价值函数:评估"这个位置/这步棋值多少钱"

每个公式我都会先给出数学形式,然后用人话翻译,保证你看完能真正理解,而不只是会背!


一、MDP:强化学习的"游戏规则说明书"

1.1 什么是MDP?

MDP(Markov Decision Process,马尔可夫决策过程) 是描述强化学习问题的标准数学框架。

大白话:MDP就像一份详细的"游戏规则说明书",它告诉你:

  • 游戏里有哪些场景(状态)

  • 你能做哪些操作(动作)

  • 做了操作会发生什么(转移)

  • 做得好不好怎么打分(奖励)

1.2 MDP的五元组定义

符号 名称 大白话解释
S 状态空间 游戏里所有可能的"场景"集合
A 动作空间 你能做的所有"操作"集合
P 转移概率 做了某操作后,下一步会变成什么场景的概率
R 奖励函数 每一步操作的"得分"
γ 折扣因子 未来的分数打几折?(0到1之间)

1.3 马尔可夫性质

大白话翻译

"未来只跟现在有关,跟历史无关。"

就像下棋,只要你告诉我现在棋盘长什么样,我就能判断下一步会怎样。至于你是怎么一步步走到现在的,无所谓。

这就是"马尔可夫性"——历史已经浓缩在当前状态里了


二、奖励(Reward):智能体的"评分系统"

2.1 即时奖励

大白话翻译

在状态 s_t 做了动作 a_t,转移到 s_{t+1} 后,你获得的即时得分就是 r_t

举例

  • 吃豆人吃到豆子:r = +10

  • 碰到鬼:r = -100

  • 普通移动:r = -1(鼓励尽快通关)

2.2 累积奖励(回报)

🗣️ 大白话翻译

G_t是从 t 时刻开始,一直到游戏结束,你能拿到的总得分

但注意:未来的分数要打折

  • 现在拿的分是 100% 的

  • 下一步拿的分只算γ(比如0.99)倍

  • 再下一步只算γ^2(0.98)倍

  • ……

为什么要打折? 因为"现在就能拿到的钱"比"未来可能拿到的钱"更实在!

2.3 折扣因子 γ 的影响

γ值 含义 智能体表现
γ = 0 完全不考虑未来 极度短视,只看眼前利益
γ = 0.9 未来打9折 比较平衡
γ = 0.99 几乎不打折 非常有远见
γ = 1 完全不打折 极端长远(可能不收敛)

记忆口诀:γ 越大越有远见,γ 越小越短视


三、策略(Policy):智能体的"行动指南"

3.1 策略的定义

策略就是告诉智能体"在什么状态下该做什么动作"的规则。

确定性策略

a=π(s)a = π(s)

大白话翻译

看到状态 s,直接告诉你该做动作 a。一个萝卜一个坑,没有任何随机性。

举例:下棋软件——输入棋盘状态,输出一个确定的落子位置。

随机策略

 大白话翻译

看到状态 s,告诉你做每个动作的概率

比如:$\pi(\text{左}|s)= 0.7$,$\pi(\text{右}|s) = 0.3$

意思是:在状态 s 下,有 70% 概率向左,30% 概率向右。

为什么需要随机? 因为有时候"随机探索"能发现更好的策略,或者能让对手无法预测你。

3.2 策略的数学性质

对于随机策略,所有动作的概率之和必须等于1:

大白话:在任何状态下,你肯定要做"某一个"动作,所以所有动作的概率加起来必须是100%。


四、价值函数(Value Function):评估"这步棋值多少钱"

价值函数是强化学习里最核心的概念之一!

4.1 状态价值函数 V(s)

大白话翻译

"从状态 s 出发,按照策略 π 一直玩下去,平均能拿多少总分?"

  • V(s) 高 → 这个状态是个"好位置"

  • V(s) 低 → 这个状态是个"烂摊子"

举例

  • 象棋里,你车马炮俱全,对方只剩一个王,V(s) 很高

  • 你被将军了、快输了,V(s) 很低

4.2 动作价值函数 Q(s, a)

大白话翻译

"在状态 s 下,如果先做动作 a,然后按策略 π 一直玩下去,平均能拿多少总分?"

Q(s,a) 比 V(s) 多了一个维度——不仅告诉你这个状态好不好,还告诉你在这个状态下做哪个动作最值

举例

  • 在十字路口(状态s),向左走 Q(s,左)=100,向右走 Q(s,右)=50

  • 说明在这里,向左走更划算

4.3 V 和 Q 的关系

🗣️ 大白话翻译

状态价值 = 各个动作价值的加权平均(权重是选择该动作的概率)

4.4 最优价值函数

🗣️ 大白话翻译

  • V^*(s):在状态 s 下,用最牛的策略能拿到的平均总分

  • Q^*(s,a):在状态 s 下做动作 a,然后用最牛的策略能拿到的平均总分


 五、贝尔曼方程:价值函数的"递归定义"

贝尔曼方程是强化学习的核心数学工具,几乎所有算法都建立在它之上。

5.1 贝尔曼期望方程(针对 $V^\pi$)

🗣️ 大白话翻译

"当前状态的价值 = 这一步的奖励 + 下一状态价值的折现"

分解一下:

  1. 根据策略 π,我会以概率 π(a|s) 选择动作 a

  2. 做了动作a,立刻得到奖励R(s,a)

  3. 环境以概率 P(s'|s,a) 转移到下一状态 s'

  4. 下一状态 s' 的价值是 V^π(s'),但要打折(乘以 \gamma)

  5. 把所有可能性加权求和

5.2 贝尔曼期望方程(针对 $Q^\pi$)

🗣️ 大白话翻译

"做动作 $a$ 的价值 = 这一步的奖励 + 到达下一状态后,继续按策略行动的价值"

5.3 贝尔曼最优方程

🗣️ 大白话翻译

和期望方程的唯一区别:把"按策略选"换成"选最好的"!

  • 期望方程:按策略 $\pi$ 的概率加权平均

  • 最优方程:直接取 max,选价值最大的那个动作

5.4 贝尔曼方程的直觉图示

                    当前状态 s
                        │
                        │ 选择动作 a (按策略或取max)
                        ▼
                   ┌────┴────┐
                   │ 即时奖励 │ ← 这一步得到的分
                   │  R(s,a) │
                   └────┬────┘
                        │
            ┌───────────┼───────────┐
            ▼           ▼           ▼
          s'_1        s'_2        s'_3    ← 可能转移到的下一状态
            │           │           │
            ▼           ▼           ▼
      γ·V(s'_1)   γ·V(s'_2)   γ·V(s'_3)  ← 下一状态的价值(打折后)
            │           │           │
            └───────────┴───────────┘
                        │
                        ▼
                  按概率加权求和
                        │
                        ▼
                  V(s) 或 Q(s,a)

六、公式速查表

名称 公式 一句话解释
累积回报 G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k} 从现在到未来的总得分(未来打折)
状态价值 V^\pi(s) = \mathbb{E}[G_t \mid s] 从这个状态出发,平均能拿多少分
动作价值 Q^\pi(s,a) = \mathbb{E}[G_t \mid s, a] 在这个状态做这个动作,平均能拿多少分
V和Q的关系 V(s) = \sum_a \pi(a|s) Q(s,a) 状态价值是动作价值的加权平均
最优策略 \pi(s) = \arg\max_a Q(s,a) 选Q值最大的动作
贝尔曼方程 V(s) = R + \gamma \mathbb{E}[V(s')] 当前价值 = 即时奖励 + 折扣后的未来价值

七、常见疑问解答

Q1:为什么需要折扣因子 γ

  1. 数学上:保证无限序列求和收敛

  2. 经济学上:未来的收益有不确定性,要折现

  3. 实践上:让智能体更注重近期奖励,加速学习

 Q2:V 和 Q 只需要一个不就够了吗?

  • 只有 V:知道状态好不好,但不知道该怎么选动作(除非知道环境模型)

  • 只有 Q:直接 $\max_a Q(s,a)$ 就能选动作,无需环境模型!

  • 所以 Q 函数在 Model-Free 算法(如DQN)中更常用

Q3:贝尔曼方程有什么用?

它是几乎所有RL算法的数学基础

  • 动态规划(DP):迭代求解贝尔曼方程

  • Q-Learning:用贝尔曼最优方程做TD更新

  • Actor-Critic:用贝尔曼期望方程估计价值


八、总结

         ┌─────────────────────────────────────────┐
         │            强化学习数学基础               │
         └───────────────────┬─────────────────────┘
                             │
         ┌───────────────────┼───────────────────┐
         ▼                   ▼                   ▼
    ┌─────────┐        ┌─────────┐        ┌─────────┐
    │   MDP   │        │   策略   │        │ 价值函数 │
    │(游戏规则)│        │(行动指南)│        │(价值评估)│
    └────┬────┘        └────┬────┘        └────┬────┘
         │                  │                  │
         ▼                  ▼                  ▼
    S, A, P, R, γ      π(a|s)           V(s), Q(s,a)
         │                  │                  │
         └──────────────────┴──────────────────┘
                            │
                            ▼
                    ┌───────────────┐
                    │   贝尔曼方程   │
                    │  (核心等式)    │
                    └───────────────┘
                            │
                            ▼
                    RL算法的数学基础

核心公式记忆口诀 

  • 回报 G:"现在的分最实在,未来的分要打折"

  • 价值 V:"站在这儿往前看,平均能拿多少分"

  • Q 值:"先走这一步,再看平均分"

  • 贝尔曼:"现在 = 眼前 + 折扣 × 未来"


💬 写在最后:数学公式看着吓人,但只要用对方法拆解,其实每个公式都在讲一个简单的道理。希望这篇文章能帮你建立对强化学习数学基础的直觉理解!

如果觉得有帮助,欢迎点赞👍收藏⭐关注🔔,下一篇我们来聊聊策略梯度的公式推导!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐