在之前的训练中,一直是正常运行的,但是,做了大量的数据增强之后,训练开始没多久就死掉了
top查看资源之后发现32G的内存,几乎全被占用了,这时候才刚开始训练
在这里插入图片描述
训练数据集和验证数据集都特别大,一个epoch还没跑完就杀死了,就是因为内存满了
在这里插入图片描述
这时候就想到了训练时使用的一个参数--cache,将这个参数去掉之后,问题就解决了

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐