Q-Learning介绍和代码示例

Q-Learning 是一种无模型的强化学习算法，旨在通过与环境的交互来学习最优策略。它通过估计每个状态-动作对的价值（即 Q 值）来实现这一点，从而帮助智能体选择最优的动作以最大化累积奖励。Q-Learning 是一种有效的强化学习算法，通过学习状态-动作对的 Q 值来优化决策过程。上述示例展示了如何在简单的网格环境中实现 Q-Learning，可以根据需要扩展到更复杂的环境和任务中。

WangLanguager

379人浏览 · 2025-10-25 10:56:11

WangLanguager · 2025-10-25 10:56:11 发布

Q-Learning 介绍

Q-Learning 是一种无模型的强化学习算法，旨在通过与环境的交互来学习最优策略。它通过估计每个状态-动作对的价值（即 Q 值）来实现这一点，从而帮助智能体选择最优的动作以最大化累积奖励。

主要特点

无模型：
- Q-Learning 不需要对环境的模型进行建模，智能体通过探索环境来学习。
离线学习：
- 可以使用历史数据进行学习，不必在每个时间步都与环境交互。
探索与利用：
- 采用探索（尝试新动作）与利用（选择已知的最佳动作）之间的平衡，以提高学习效率。
收敛性：
- 在满足一定条件的情况下，Q-Learning 可以收敛到最优策略。

Q-Learning 的代码示例

以下是一个使用 Python 实现的简单 Q-Learning 示例，模拟一个小型的网格环境。

import numpy as np
import random

# 定义环境参数
GRID_SIZE = 5
NUM_ACTIONS = 4  # 上、下、左、右
ACTIONS = [0, 1, 2, 3]  # 0: 上, 1: 下, 2: 左, 3: 右
REWARDS = np.zeros((GRID_SIZE, GRID_SIZE))

# 定义奖励
REWARDS[4, 4] = 1  # 目标位置的奖励

# 初始化 Q 表
Q = np.zeros((GRID_SIZE, GRID_SIZE, NUM_ACTIONS))

# 定义学习参数
ALPHA = 0.1  # 学习率
GAMMA = 0.9  # 折扣因子
EPSILON = 0.2  # 探索率
EPISODES = 1000

# 定义动作的变化
def get_next_state(state, action):
    if action == 0:  # 上
        return max(state[0] - 1, 0), state[1]
    elif action == 1:  # 下
        return min(state[0] + 1, GRID_SIZE - 1), state[1]
    elif action == 2:  # 左
        return state[0], max(state[1] - 1, 0)
    elif action == 3:  # 右
        return state[0], min(state[1] + 1, GRID_SIZE - 1)

# Q-Learning 算法
for episode in range(EPISODES):
    state = (0, 0)  # 从起始位置开始
    while state != (4, 4):  # 直到到达目标
        # 选择动作（ε-greedy 策略）
        if random.uniform(0, 1) < EPSILON:
            action = random.choice(ACTIONS)  # 探索
        else:
            action = np.argmax(Q[state[0], state[1]])  # 利用

        # 采取行动并观察下一个状态和奖励
        next_state = get_next_state(state, action)
        reward = REWARDS[next_state]

        # 更新 Q 值
        Q[state[0], state[1], action] += ALPHA * (reward + GAMMA * np.max(Q[next_state[0], next_state[1]]) - Q[state[0], state[1], action])

        # 转移到下一个状态
        state = next_state

# 打印 Q 表
print("Q 表:")
print(Q)

# 输出最优策略
optimal_policy = np.argmax(Q, axis=2)
print("最优策略:")
print(optimal_policy)

代码说明

环境设置：
- 定义了一个 5x5 的网格环境，目标位置 (4, 4) 给予奖励 1，其余位置奖励为 0。
Q 表初始化：
- 使用零初始化的 Q 表，维度为 (5, 5, 4)，对应每个状态和动作的 Q 值。
动作定义：
- 定义了四个基本动作（上、下、左、右）及其对应的状态变化。
Q-Learning 算法：
- 在每个回合中，智能体从起始位置 (0, 0) 开始，使用 ε-greedy 策略选择动作，更新 Q 值，直到到达目标位置。
结果输出：
- 打印最终的 Q 表和最优策略。