一般机器学习分为有监督学习和无监督学习,它们的区分依据是用于训练的数据集中是否提供预期输出来指导学习。而强化学习不属于这两种里面的任何一个,因为他不需要事先准备数据集,而是通过与环境交互获取训练数据,然后通过一种称为奖励的概念来指导学习。

1. 概念

  • 智能体(Agent):智能体是参与强化学习的主体,它负责观察环境、选择动作并获得奖励。智能体的目标是通过与环境的交互学习一个策略,以最大化长期奖励。
  • 环境(Environment):环境是智能体所处的外部环境,它会对智能体的动作做出响应,并根据智能体的行为提供奖励。环境的状态会随着智能体的动作而改变。
  • 动作(Actions):动作是智能体可以执行的操作,它会影响环境的状态。在每个时间步,智能体需要选择一个动作来执行,以影响环境并获取奖励。
  • 状态(State):状态是描述环境当前情况的信息。智能体的决策取决于当前状态,同时环境的状态也会随着智能体的动作而变化。
  • 奖励(Reward):奖励是环境针对智能体的动作提供的反馈信号,表示动作的好坏程度。智能体的目标是通过最大化长期奖励来学习一个优秀的策略。
  • 策略(Policy):策略定义了智能体在特定状态下选择动作的方式。它可以是确定性的(直接映射状态到动作)或者是随机性的(根据概率分布选择动作)。
  • 状态转移(State Transition):状态转移描述了在智能体执行动作后,环境状态如何发生变化。这是强化学习中一个重要的概念,智能体需要理解不同状态之间的转移关系来做出优化的决策。

2. 学习过程

在这里插入图片描述

  1. 智能体与环境交互:在强化学习中,智能体与环境之间进行交互。智能体观察环境,获得状态。然后根据状态选择执行动作。获取环境给予的奖励作为反馈。
  2. 状态转移和奖励:智能体根据当前状态选择动作,环境根据智能体的动作改变状态,并给予相应的奖励。这一过程构成了智能体在环境中的学习过程。
  3. 策略更新:智能体根据环境的反馈(奖励)来更新自己的策略。目标是通过不断尝试和学习,找到一个最优的策略以最大化长期奖励。
  4. 价值函数估计:在学习的过程中,智能体会估计每个状态的价值,即在该状态下执行特定动作所能获得的长期奖励。这有助于智能体做出更好的决策。当前文章不考虑这一点。

3. 马尔可夫决策过程

强化学习的过程可以抽象为马尔可夫决策过程。
马尔可夫过程中,下一个状态的概率只依赖于当前状态,与过去所有状态无关。
马尔可夫决策过程中,下一个状态的概率则是依赖于当前状态和要采取的行为。相比于马尔可夫过程,增加了行为、奖励和终止状态。强化学习的目标是最大化奖励,即 r 1 + r 2 + r 3 + . . . r_{1}+r_{2}+r_{3}+... r1+r2+r3+...。但是对于连续任务,如果奖励都是正的,学习过程将无法收敛,因此需要引入折扣奖励,即 r 1 + γ r 2 + γ 2 r 3 + . . . r_{1}+\gamma r_{2}+\gamma^{2} r_{3}+... r1+γr2+γ2r3+... γ \gamma γ是折扣因子(这里不细讲,后面用到再解释)。所以马尔可夫决策过程可以记为(S,A,P,R,Done, γ \gamma γ)。S是状态空间;A是行为空间;P是状态转移概率;R是奖励函数;Done是终止状态; γ \gamma γ是折扣因子。也可记为(S,A,P,R,Done)或(S,A,P,R)。
对于马尔可夫决策过程需要关心一些特性。

  1. 退化
    退化是指只有一个状态。那么每次决策就不需要考虑状态了,状态转移概率也不需要关心了,只需要关心每个行为可以获得多少奖励 R a = R a s R^{a}=R^{s}_{a} Ra=Ras。只需要收集足够的数据,统计每个动作对应的奖励期望即可。
  2. 环境是否已知
    环境已知就是表示P和R已知。这种情况是不需要学习的,只需要通过动态规划求解。如果环境未知,也可以通过收集数据去统计P和R,但这通常不建议。
  3. 确定性与随机性
    随机性需要考虑初始状态是否确定,状态转移是否确定。初始状态确定就是只每次都从某一个状态开始。状态转移确定就是对于给定的状态和行为,一定可以确定下一个状态是什么,而不是获得一个概率分布。如果环境是确定的,就可以直接得到最优策略。对于某些情况,奖励也会是确定的或随机的。
  4. 时齐性
    时齐性是指P或R或Done不随时间变化而变化,即 P ( X n = j ∣ X n − 1 = i ) = P ( X m = j ∣ X m − 1 = i ) P(X_{n}=j|X_{n-1}=i)=P(X_{m}=j|X_{m-1}=i) P(Xn=jXn1=i)=P(Xm=jXm1=i)。例如:如果P和R时齐,但是有起止时间,那么Done是非时齐的,行为决策需要同时考虑状态和时间。如果P和Done时齐,R虽时间指数衰减,实际上R也是时齐的(指数函数无记忆),这时行为决策只需要考虑状态。
  5. 状态与动作的连续性
    这个就不用解释了。根据状态与动作的连续性需要采用不同的策略。后面会慢慢认识到。
  6. 时间的连续性
    对于连续的时间,状态会是缓慢变化的,两个状态如果相隔无限小的时间间隔,他们会无限相似。状态转移概率会是密度函数而不是概率分布。奖励函数也将是连续的,求解奖励和就需要使用积分。

4. 更多内容

强化学习2:Q-learning 算法
强化学习3:SARSA 算法
强化学习4:DQN 算法
强化学习5:策略梯度推导
更多内容更新中…

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐