有关这个错误可能有两个原因:

1.前期训练的epoch结果太差,基本为0,会报这个错误,可以再等模型训练验证几次,如果还是报这个错误可能为问题二

2.配置文件错误,数据集加载错误,可以在work_dir中看生成的配置文件,从上到下仔细查看,训练集和验证集是否正确,num_classes是否正确。我就是只设置了data_root为数据集根目录,在配置文件中看发现还是之前的训练集和验证集目录,应该是没有覆盖完全。

另外训练时loss全部变成nan的情况应该是学习率过大的问题,以retinanet为例,可以将schedule_1×.py中的auto_scale_lr = dict(enable=False, base_batch_size=16)修改,将False改为True.

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐