网络训练时使用不同学习率策略（Poly）以及学习率是如何计算

学习率学习率（Learning Rate）作为网络中重要的一个超参数，其设置的好坏决定了目标函数能否收敛到局部最小值以及何时收敛到最小值。在Deeplab中提出的Poly学习率策略。# 创建学习率更新策略，这里是每个step更新一次学习率，以及使用warmupdef create_lr_scheduler(optimizer,num_step: int,epochs: int,

卡子爹

8194人浏览 · 2022-03-21 16:27:56

卡子爹 · 2022-03-21 16:27:56 发布

学习率

学习率（Learning Rate）作为网络中重要的一个超参数，其设置的好坏决定了目标函数能否收敛到局部最小值以及何时收敛到最小值。

在Deeplab中提出的Poly学习率策略。

# 创建学习率更新策略，这里是每个step更新一次学习率，以及使用warmup
def create_lr_scheduler(optimizer,
                        num_step: int,
                        epochs: int,
                        warmup=True,
                        warmup_epochs=1,
                        warmup_factor=1e-3):
    assert num_step > 0 and epochs > 0
    if warmup is False:
        warmup_epochs = 0

    def f(x):
        """
        根据step数返回一个学习率倍率因子，
        注意在训练开始之前，pytorch会提前调用一次lr_scheduler.step()方法
        """
        if warmup is True and x <= (warmup_epochs * num_step):
            alpha = float(x) / (warmup_epochs * num_step)
            # warmup过程中lr倍率因子从warmup_factor -> 1
            return warmup_factor * (1 - alpha) + alpha
        else:
            # 参考deeplab_v2: Learning rate policy
            return (1 - (x - warmup_epochs * num_step) / ((epochs - warmup_epochs) * num_step)) ** 0.9

    return torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda=f)

学习率的计算：
由于网络在训练开始之前，pytorch会提前调用一次lr_scheduler.step()方法，因此从x=1开始计算，在预热阶段，学习率每次会根据warmup_factor * (1 - alpha) + alpha返回一个学习率倍率因子。调用lr_scheduler.py文件里的LambdaLR类，使用函数get_lr将倍率因子与初始学习率相乘，得到当前的学习率。

get_lr
在这里插入图片描述

学习率通过上述计算方式，得到网络当前的学习率(保存小数点后6位)：
x = 1, warmup_epochs=1, num_step=366, init_base=1e-4 warmup_factor=1e-3 :
alpha = float(x) / (warmup_epochs * num_step) = 1 / (1 * 366) = 0.0027
warmup_factor * (1 - alpha) + alpha = 0.0036973
0.0036973* init_base = 0.000000

x = 2:
alpha = float(x) / (warmup_epochs * num_step) = 2 / (1 * 366) = 0.01
warmup_factor * (1 - alpha) + alpha = 0.01099
0.01099 * init_base = 1e-6
.
.
.