强化学习数学基础：MDP、奖励、策略、价值函数——用大白话讲透每个公式

本文用通俗语言解析强化学习的四大数学基础：1. MDP（马尔可夫决策过程）是描述强化学习问题的框架，包含状态、动作、转移概率和奖励；2. 奖励函数是智能体的评分系统，即时奖励和考虑未来折扣的累积奖励；3. 策略是智能体的行动指南，分为确定性策略和随机策略；4. 价值函数评估状态或动作的长期价值，包括状态价值函数V(s)和动作价值函数Q(s,a)。文章还解释了核心的贝尔曼方程，并提供了公式速查表和常

rmysjm

1167人浏览 · 2025-12-01 11:07:26

rmysjm · 2025-12-01 11:07:26 发布

二、奖励（Reward）：智能体的"评分系统"

2.1 即时奖励

2.2 累积奖励（回报）

2.3 折扣因子 γ 的影响

三、策略（Policy）：智能体的"行动指南"

四、价值函数（Value Function）：评估"这步棋值多少钱"

5.1 贝尔曼期望方程（针对 $V^\pi$）

5.2 贝尔曼期望方程（针对 $Q^\pi$）

摘要

强化学习的论文和教程里满是数学公式，看得人头大？

别怕！本文将用最通俗的大白话带你拆解强化学习的四大数学基石：

MDP：强化学习问题的"游戏规则说明书"

奖励：告诉智能体什么是好、什么是坏的"评分系统"

策略：智能体的"行动指南"

价值函数：评估"这个位置/这步棋值多少钱"

每个公式我都会先给出数学形式，然后用人话翻译，保证你看完能真正理解，而不只是会背！

一、MDP：强化学习的"游戏规则说明书"

1.1 什么是MDP？

MDP（Markov Decision Process，马尔可夫决策过程） 是描述强化学习问题的标准数学框架。

大白话：MDP就像一份详细的"游戏规则说明书"，它告诉你：

游戏里有哪些场景（状态）

你能做哪些操作（动作）

做了操作会发生什么（转移）

做得好不好怎么打分（奖励）

1.2 MDP的五元组定义

符号	名称	大白话解释
S	状态空间	游戏里所有可能的"场景"集合
A	动作空间	你能做的所有"操作"集合
P	转移概率	做了某操作后，下一步会变成什么场景的概率
R	奖励函数	每一步操作的"得分"
γ	折扣因子	未来的分数打几折？(0到1之间)

1.3 马尔可夫性质

大白话翻译：

"未来只跟现在有关，跟历史无关。"

就像下棋，只要你告诉我现在棋盘长什么样，我就能判断下一步会怎样。至于你是怎么一步步走到现在的，无所谓。

这就是"马尔可夫性"——历史已经浓缩在当前状态里了。

二、奖励（Reward）：智能体的"评分系统"

2.1 即时奖励

大白话翻译：

在状态 $s_t$ 做了动作 $a_t$ ，转移到 $s_{t+1}$ 后，你获得的即时得分就是 $r_t$ 。

举例：

吃豆人吃到豆子：r = +10

碰到鬼：r = -100

普通移动：r = -1（鼓励尽快通关）

2.2 累积奖励（回报）

🗣️ 大白话翻译：

$G_t$ 是从 t 时刻开始，一直到游戏结束，你能拿到的总得分。

但注意：未来的分数要打折！

现在拿的分是 100% 的

下一步拿的分只算γ（比如0.99）倍

再下一步只算γ^2（0.98）倍

……

为什么要打折？ 因为"现在就能拿到的钱"比"未来可能拿到的钱"更实在！

2.3 折扣因子 γ 的影响

γ值	含义	智能体表现
γ = 0	完全不考虑未来	极度短视，只看眼前利益
γ = 0.9	未来打9折	比较平衡
γ = 0.99	几乎不打折	非常有远见
γ = 1	完全不打折	极端长远（可能不收敛）

记忆口诀：γ 越大越有远见，γ 越小越短视

三、策略（Policy）：智能体的"行动指南"

3.1 策略的定义

策略就是告诉智能体"在什么状态下该做什么动作"的规则。

确定性策略

a=π(s)a = π(s)

大白话翻译：

看到状态 s，直接告诉你该做动作 a。一个萝卜一个坑，没有任何随机性。

举例：下棋软件——输入棋盘状态，输出一个确定的落子位置。

随机策略

大白话翻译：

看到状态 s，告诉你做每个动作的概率。

比如：$\pi(\text{左}|s)= 0.7$，$\pi(\text{右}|s) = 0.3$

意思是：在状态 s 下，有 70% 概率向左，30% 概率向右。

为什么需要随机？ 因为有时候"随机探索"能发现更好的策略，或者能让对手无法预测你。

3.2 策略的数学性质

对于随机策略，所有动作的概率之和必须等于1：

大白话：在任何状态下，你肯定要做"某一个"动作，所以所有动作的概率加起来必须是100%。

四、价值函数（Value Function）：评估"这步棋值多少钱"

价值函数是强化学习里最核心的概念之一！

4.1 状态价值函数 V(s)

大白话翻译：

"从状态 s 出发，按照策略 π 一直玩下去，平均能拿多少总分？"

V(s) 高 → 这个状态是个"好位置"

V(s) 低 → 这个状态是个"烂摊子"

举例：

象棋里，你车马炮俱全，对方只剩一个王，V(s) 很高

你被将军了、快输了，V(s) 很低

4.2 动作价值函数 Q(s, a)

大白话翻译：

"在状态 s 下，如果先做动作 a，然后按策略 π 一直玩下去，平均能拿多少总分？"

Q(s,a) 比 V(s) 多了一个维度——不仅告诉你这个状态好不好，还告诉你在这个状态下做哪个动作最值。

举例：

在十字路口（状态s），向左走 Q(s,左)=100，向右走 Q(s,右)=50

说明在这里，向左走更划算

4.3 V 和 Q 的关系

🗣️ 大白话翻译：

状态价值 = 各个动作价值的加权平均（权重是选择该动作的概率）

4.4 最优价值函数

🗣️ 大白话翻译：

V^*(s)：在状态 s 下，用最牛的策略能拿到的平均总分

Q^*(s,a)：在状态 s 下做动作 a，然后用最牛的策略能拿到的平均总分

五、贝尔曼方程：价值函数的"递归定义"

贝尔曼方程是强化学习的核心数学工具，几乎所有算法都建立在它之上。

5.1 贝尔曼期望方程（针对 $V^\pi$）

🗣️ 大白话翻译：

"当前状态的价值 = 这一步的奖励 + 下一状态价值的折现"

分解一下：

根据策略 π，我会以概率 π(a|s) 选择动作 a

做了动作a，立刻得到奖励R(s,a)

环境以概率 P(s'|s,a) 转移到下一状态 s'

下一状态 s' 的价值是 V^π(s')，但要打折（乘以 \gamma）

把所有可能性加权求和

5.2 贝尔曼期望方程（针对 $Q^\pi$）

🗣️ 大白话翻译：

"做动作 $a$ 的价值 = 这一步的奖励 + 到达下一状态后，继续按策略行动的价值"

5.3 贝尔曼最优方程

🗣️ 大白话翻译：

和期望方程的唯一区别：把"按策略选"换成"选最好的"！

期望方程：按策略 $\pi$ 的概率加权平均

最优方程：直接取 max，选价值最大的那个动作

5.4 贝尔曼方程的直觉图示

                    当前状态 s
                        │
                        │ 选择动作 a (按策略或取max)
                        ▼
                   ┌────┴────┐
                   │ 即时奖励 │ ← 这一步得到的分
                   │  R(s,a) │
                   └────┬────┘
                        │
            ┌───────────┼───────────┐
            ▼           ▼           ▼
          s'_1        s'_2        s'_3    ← 可能转移到的下一状态
            │           │           │
            ▼           ▼           ▼
      γ·V(s'_1)   γ·V(s'_2)   γ·V(s'_3)  ← 下一状态的价值(打折后)
            │           │           │
            └───────────┴───────────┘
                        │
                        ▼
                  按概率加权求和
                        │
                        ▼
                  V(s) 或 Q(s,a)

六、公式速查表

名称	公式	一句话解释
累积回报	$G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k}$	从现在到未来的总得分（未来打折）
状态价值	$V^\pi(s) = \mathbb{E}[G_t \mid s]$	从这个状态出发，平均能拿多少分
动作价值	$Q^\pi(s,a) = \mathbb{E}[G_t \mid s, a]$	在这个状态做这个动作，平均能拿多少分
V和Q的关系	$V(s) = \sum_a \pi(a\|s) Q(s,a)$	状态价值是动作价值的加权平均
最优策略	$\pi(s) = \arg\max_a Q(s,a)$	选Q值最大的动作
贝尔曼方程	$V(s) = R + \gamma \mathbb{E}[V(s')]$	当前价值 = 即时奖励 + 折扣后的未来价值

七、常见疑问解答

Q1：为什么需要折扣因子 γ

数学上：保证无限序列求和收敛

经济学上：未来的收益有不确定性，要折现

实践上：让智能体更注重近期奖励，加速学习

Q2：V 和 Q 只需要一个不就够了吗？

只有 V：知道状态好不好，但不知道该怎么选动作（除非知道环境模型）

只有 Q：直接 $\max_a Q(s,a)$ 就能选动作，无需环境模型！

所以 Q 函数在 Model-Free 算法（如DQN）中更常用

Q3：贝尔曼方程有什么用？

它是几乎所有RL算法的数学基础：

动态规划（DP）：迭代求解贝尔曼方程

Q-Learning：用贝尔曼最优方程做TD更新

Actor-Critic：用贝尔曼期望方程估计价值

八、总结

         ┌─────────────────────────────────────────┐
         │            强化学习数学基础               │
         └───────────────────┬─────────────────────┘
                             │
         ┌───────────────────┼───────────────────┐
         ▼                   ▼                   ▼
    ┌─────────┐        ┌─────────┐        ┌─────────┐
    │   MDP   │        │   策略   │        │ 价值函数 │
    │(游戏规则)│        │(行动指南)│        │(价值评估)│
    └────┬────┘        └────┬────┘        └────┬────┘
         │                  │                  │
         ▼                  ▼                  ▼
    S, A, P, R, γ      π(a|s)           V(s), Q(s,a)
         │                  │                  │
         └──────────────────┴──────────────────┘
                            │
                            ▼
                    ┌───────────────┐
                    │   贝尔曼方程   │
                    │  (核心等式)    │
                    └───────────────┘
                            │
                            ▼
                    RL算法的数学基础

核心公式记忆口诀

回报 G："现在的分最实在，未来的分要打折"

价值 V："站在这儿往前看，平均能拿多少分"

Q 值："先走这一步，再看平均分"

贝尔曼："现在 = 眼前 + 折扣 × 未来"

💬 写在最后：数学公式看着吓人，但只要用对方法拆解，其实每个公式都在讲一个简单的道理。希望这篇文章能帮你建立对强化学习数学基础的直觉理解！

如果觉得有帮助，欢迎点赞👍收藏⭐关注🔔，下一篇我们来聊聊策略梯度的公式推导！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

免费降AI工具是不是坑？三大致命陷阱别踩了

2048 AI社区

GPT写的论文怎么改才能不翻车？实用降AI指南

2048 AI社区

web 自动化测试，这8 个核心知识点，你一定得掌握

要进行浏览器端的自动化测试，掌握核心的 js 用法是必不可少的，本文提到的 8 个知识点，都会频繁用到。通过 let 关键字命名变量。通过 if 和三元表达式控制条件。普通的 function 形式函数定义。箭头函数也经常使用，有点类似匿名函数。回调函数在 js 当中非常常见，但是会遇到回调地域的问题。Promise 是解决回调地狱的有效手段，promise 和 then 的用法会经常碰到。Asy

2048 AI社区

所有评论(0)

查看更多评论

rmysjm

@rmysjm

已为社区贡献7条内容