【人工智能引论期末复习】第7章强化学习1-MDP & Bellman

强化学习基本要素智能体（Agent）、环境（Environment）、状态（State）、动作（Action）、策略（Policy）、奖励（Reward）强化学习的目标：最大化累计奖励马尔可夫性（Markov Property）定义：t+1时刻的状态只与t时刻的状态有关马尔可夫过程、马尔可夫链、马尔可夫决策过程的区别马尔可夫决策过程（MDP）定义：用于建模序贯决策问题，状态具有马尔可夫性策略函数π

2301_80025611

631人浏览 · 2026-01-15 09:25:24

2301_80025611 · 2026-01-15 09:25:24 发布

一、核心概念与定义（填空、选择高频）

强化学习基本要素：
- 智能体（Agent）、环境（Environment）、状态（State）、动作（Action）、策略（Policy）、奖励（Reward）
- 强化学习的目标：最大化累计奖励
马尔可夫性（Markov Property）：
- 定义：t+1时刻的状态只与t时刻的状态有关
- 马尔可夫过程、马尔可夫链、马尔可夫决策过程的区别
马尔可夫决策过程（MDP）：
- 定义：用于建模序贯决策问题，状态具有马尔可夫性
- MDP五元组：(S,A,P,R,γ)
- 策略函数 π(a∣s) 的含义
贝尔曼方程（Bellman Equation）：
- 又称动态规划方程
- 描述了状态价值函数 V(s) 和动作价值函数 Q(s,a) 的递推关系
- 时间相关性：价值函数与时间相关

三、典型模型与问题（问答、建模题）

多臂赌博机问题：
- 建模为简化MDP问题
- 目标：在有限次数内最大化累计奖励
- 涉及探索与利用的权衡
马尔可夫奖励过程（MRP）：
- MDP去除动作后的简化版本
- 用于理解奖励与状态转移的关系
轨迹（Trajectory）与片段（Episode）：
- 例如围棋对局是一个片段

四、与“2025回忆卷”相关的考点提示

填空/选择可能涉及：
- 贝尔曼方程又称动态规划方程
- 价值函数与时间相关
- MDP是序贯决策模型
- 马尔可夫性：无记忆性
计算题可能涉及：
- 给定MDP模型，计算 V(s) 或 Q(s,a)
- 多臂赌博机建模与策略选择
- 贝尔曼方程推导或验证
问答/论述可能涉及：
- 解释MDP在强化学习中的重要性
- 贝尔曼方程如何帮助求解最优策略
- 结合AlphaGo等案例说明MDP与RL的关系

五、建议复习策略

理解为主：重点理解马尔可夫性、MDP结构、贝尔曼方程的意义
公式推导：掌握贝尔曼方程的推导过程，能写出标准形式
联系实际：思考MDP在游戏、机器人控制等场景中的应用
结合题库：多练习类似“2025回忆卷”中的Q学习、价值函数计算题型

🧠 第7章 MDP & Bellman 模拟练习题

一、填空题（共10题，每空1分）

马尔可夫决策过程的五元组是：______。
在MDP中，智能体的目标是最大化______。
贝尔曼方程又称______方程，描述了价值函数的______关系。
马尔可夫性是指：t+1时刻的状态只与______时刻的状态有关。
在MDP中，策略函数 π(a∣s)表示在状态 s 下选择动作 a 的______。
如果折扣因子 γ=0，智能体只关心______奖励。
多臂赌博机问题是MDP的简化版，它没有______。
价值函数 V(s) 表示从状态 ss 出发，遵循策略 π 所能获得的______。
动作价值函数 Q(s,a) 表示在状态 s 下执行动作 a 后，再遵循策略 π 所能获得的______。
在贝尔曼最优方程中，我们寻找的是______策略。

二、选择题（共5题，每题2分）

以下哪个不是MDP的组成部分？
A. 状态
B. 动作
C. 奖励
D. 数据集
贝尔曼方程适用于：
A. 监督学习
B. 无监督学习
C. 强化学习
D. 所有机器学习任务
马尔可夫性假设是为了：
A. 增加计算复杂度
B. 简化问题建模
C. 引入更多历史信息
D. 减少奖励
如果 γ=0.9γ=0.9，则未来第10步的奖励对当前价值的贡献约为初始奖励的：
A. 90%
B. 35%
C. 10%
D. 几乎为0
在多臂赌博机问题中，智能体需要平衡：
A. 记忆与遗忘
B. 探索与利用
C. 状态与动作
D. 奖励与惩罚

三、计算与推导题（共3题）

2. 多臂赌博机建模（6分）

简述如何将“选择餐厅”问题建模为一个多臂赌博机问题，并说明：

状态是什么？
动作是什么？
奖励是什么？
目标是什么？

3. 简答题（8分）

为什么说“贝尔曼方程是强化学习求解的核心工具”？请结合MDP和动态规划的思想简要说明。

✅ 参考答案

一、填空题

状态集 SS、动作集 AA、转移概率 PP、奖励函数 RR、折扣因子 γγ
累计奖励（或回报）
动态规划、递推
t
概率
即时
状态转移（或状态）
期望累计奖励
期望累计奖励
最优

二、选择题

D
C
B
B（计算公式：0.910≈0.350.910≈0.35）
B

2. 多臂赌博机建模

状态：无状态（或仅“已尝试次数”）
动作：选择某一家餐厅
奖励：用餐满意度（如评分1~5）
目标：在有限次数内最大化总满意度

3. 简答题

贝尔曼方程将复杂的序列决策问题分解为“即时奖励 + 未来价值”的递归形式，符合动态规划的“最优子结构”思想。在MDP中，贝尔曼方程允许我们通过迭代更新价值函数，逐步逼近最优策略，是值迭代、策略迭代等强化学习算法的基础。它建立了状态、动作、奖励与价值之间的数学联系，是求解强化学习问题的核心工具。

🧮 题型一：Q学习单步更新计算

题目1（类似2025卷中Q学习题）

已知一个9宫格环境如下：

s1  s2  s3
s4  s5  s6
s7  s8  s9

智能体从 s1 出发。
可执行动作：上、下、左、右（不可越界）。
奖励规则：
- 进入 s9 奖励 +1，并终止。
- 进入 sd（死亡状态，假设为s5）奖励 -1，并终止。
- 其他状态奖励为 0。
折扣因子 γ=0.9。
学习率 α=0.5。
初始Q值：
- 对于所有非终止状态：Q(s,右)=0.2,Q(s,下)=0.3,Q(s,左)=0.1,Q(s,上)=0.1Q(s,右)=0.2,Q(s,下)=0.3,Q(s,左)=0.1,Q(s,上)=0.1
- 终止状态（s9, sd）所有动作Q值 = 0。

智能体执行以下两步：

从 s1 选择动作“右” → 进入 s2（奖励0）
从 s2 选择动作“下” → 进入 s5（sd，奖励-1，终止）

问题：
a) 哪一步的Q值会被更新？更新后的Q值是多少？
b) 写出Q学习更新公式并代入计算。

题目2（多步更新与策略影响）

环境同上，但：

s5 不再是终止状态，只是一个普通状态（奖励0）。
智能体从 s1 开始，执行策略：总是选择当前Q值最大的动作（若有多个则选第一个）。
初始Q值同上。

执行三步：

s1 → 右 → s2
s2 → 下 → s5
s5 → 右 → s6

假设s6是普通状态（奖励0）。

问题：
a) 分别计算三步后更新的Q值。
b) 三步后智能体会如何调整策略？

📊 题型二：贝尔曼方程与值迭代

题目3（值迭代计算）

已知一个简单MDP：

状态：{A, B}，B为终止状态（奖励0）。
动作：{去B, 停留}
转移：
- 在A选择“去B”：100%到B，奖励 +5
- 在A选择“停留”：100%留在A，奖励 +1
折扣因子 γ=0.9。
初始值：V(A)=0,V(B)=0V

问题：
a) 执行一次值迭代（贝尔曼最优方程）更新 V(A)。
b) 最优策略是什么？

📈 历年类似考题分析与预测

常见考点总结（基于“2025回忆卷”及类似试卷）：

考点	出现频率	题型	备注
Q学习单步更新	高	计算题	常给一个网格环境，要求计算更新后的Q值
贝尔曼方程形式	中	填空/简答	要求写出状态价值函数或动作价值函数的贝尔曼方程
折扣因子计算	中	选择/计算	计算未来奖励的现值
探索与利用	高	填空/选择	UCB、ε-greedy等策略
多臂赌博机	中	简答/建模	要求将实际问题建模为MAB
值迭代 vs 策略迭代	低	选择/简答	理解区别与适用场景

预测可能的新题型（结合近年RL发展）：

DQN相关：简述DQN如何结合Q学习和深度学习。
策略梯度简述：要求写出策略梯度定理的基本形式。
Actor-Critic框架：说明Actor和Critic各自的作用。
蒙特卡洛树搜索（MCTS）与AlphaGo：简述MCTS在AlphaGo中的应用。

✅ 参考答案（部分）

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

具有非线性不确定性的多智能体系统的固定时间事件触发共识控制（Matlab代码实现）

本文研究了具有非线性不确定性的多智能体系统的固定时间事件触发共识控制问题。基于事件触发策略的固定时间共识协议被提出，这些协议可以显著降低能量消耗和控制器更新的频率。集中式和分布式共识控制策略均被考虑。证明了在所提出的事件触发共识控制策略下，可以避免Zeno行为。与有限时间共识相比，固定时间共识可以在固定的收敛时间内达成，而与智能体的任意初始状态无关。最后，通过两个例子展示了固定时间事件触发共识协议