【RL】强化学习基础原理

朔漠君

98人浏览 · 2025-11-05 14:16:11

朔漠君 · 2025-11-05 14:16:11 发布

概念定义

强化学习（reinforcement learning RL） 讨论的问题是一个智能体（agent）如何在复杂不确定的环境（environment）中极大化的获取它能获得的奖励（reward）。通过感知所处环境的状态（state）对动作（action）的反应，来指导更好的动作，从而获得最大的收益（return），这样在交互中学习的方式被称为强化学习。

Reinforcement learning is learning what to do—how to map situations to actions——so as to maximize a numerical reward signal. ----- Richard S. Sutton and Andrew G. Barto 《Reinforcement Learning: An Introduction II》

智能体基于当前时刻从环境获取的状态，来决定采取什么动作。环境基于智能体的动作发生状态的改变，并给智能体一个奖励【可以是负的】，最终是为了获取所有奖励和，即收益的最大。

和机器学习的关系

机器学习分为三种方法：监督学习、无监督学习和强化学习

监督学习 是从外部监督者提供的带标注训练集中进行学习【任务驱动型】
无监督学习 是能从未标注训练集中寻找隐含结构的过程【数据驱动型】
强化学习 侧重于智能体和环境的交互，在试错和开发中权衡，能从已有经验中获取收益，同时也要进行试探，使得未来可以获取更好的动作选择空间【从错误中学习】

强化学习的基础

特点

试错学习 强化学习一般没有直接的指导信息（训练数据集），Agent要不断与environment进行交互，通过试错来获得最佳策略（policy）
延迟回报 在最后才能做到return，如下围棋，结束时才知道胜负，中间下在位置1和位置2其reward可能都是0.

基本元素

强化学习基础元素

智能体 agent 相当于玩游戏的玩家，那个通过动作来使游戏（环境）的状态发生改变。
环境 environment 一个外部的系统，智能体在这个系统中能够感知这个系统的状态变化。
状态 state/观察值 observation 状态是对环境的完整描述，不会隐藏环境的信息，观察值是对状态的部分描述，可能会遗漏一些信息。
动作 action 不同的环境允许不同的动作，在给定的环境中，有效的集合经常被称为动作空间包括离散动作空间-走迷宫只有上下左右4种移动方式和连续动作空间-机器人360度中的任意角度都可以移动。
奖励 reward 由环境给的一个标量反馈信号，这个信号表示智能体在状态 s1 下选择的动作 a1 的表现怎么样

应用场景

游戏
机器狗

算法分类

在这里插入图片描述

按环境是否已知划分免模型学习 model-free 和有模型学习 model-based
– model-free 指不去学习和理解环境，环境给出什么信息就是什么信息，常见的为policy optimization和Q-learning
– model-based 是需要学习和理解环境，用一个模型来模拟环境，基于这个模拟环境来获取反馈。
按学习方式可划分为在线策略 on-policy和离线策略 off-policy
– on-policy需要agent在场，边玩边学，典型算法是sarsa
– off-policy指agent可以自己玩或者看别人玩，通过看别人玩来学习别人的行为准则。从过往经验中学习，玩和学的时间可以不同。典型方法是Q-learning 及Deep-Q-Network
按学习目标划分基于策略 policy-based和基于价值 value-based
policy-based 输出下一步动作的概率，根据概率来选取动作。但不一定概率最高就会选择该动作，还是会从整体考虑。适用于非连续和连续的动作。常见的方法有policy gradients
value-based 输出动作的价值，选择价值最高的动作。适用于非连续的动作，常见算法为Q-learning，DQN和sarsa
actor critic 结合两者，actor根据概率做动作，critic根据动作给出价值，常见的有A2C,A3C,DDPG等

参考

强化学习入门：基本思想和经典算法

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

小红书多工具集成模式实战：如何连接 CLI/MCP/API 构建统一工作流

/ 新增工具只需实现统一接口本文详细解析了多工具集成的架构设计与实现方案，涵盖 CLI、MCP、API 三种技术形态的集成模式，以及工具链编排、状态管理、错误处理和降级策略。这种设计使得系统能够灵活整合各种外部工具，构建高效的自动化工作流。

2048 AI社区

GitHub 热门项目日报 | 2026-06-12 ~ 2026-06-13

在代码的洪流中，每48小时都是一次技术的微型大爆炸。2026年6月的第二周，GitHub的热门榜单再次向我们揭示了开发者社区的脉搏：Python与JavaScript的“双雄对决”并未因时间推移而褪色，反而在AI应用落地与Web全栈进化的交汇点上，迸发出更为激烈的火花。本周，25个高热度项目不仅刷新了Star记录，更重新定义了效率与体验的边界。从智能代理的自动化突破到前端框架的性能极限压榨，我们看