在训练过程中跑验证集导致显存out of memory问题。

文章目录前言正文总结前言在训练模型时，笔者想要每训练一个epoch，记录一下val的准确率，但是每当训练完第一个epoch开始准备跑val数据集的时候，就会出现显存double然后溢出的情况（batch_size在验证和训练时设置相同）。此处将复现笔者出现的问题，并给出解决方案。正文原始训练流程：for eopch in epochs:for data,label in train_dataloa

等待戈多。

4129人浏览 · 2022-05-02 21:03:56

等待戈多。 · 2022-05-02 21:03:56 发布

文章目录

前言
正文
总结

前言

在训练模型时，笔者想要每训练一个epoch，记录一下val的准确率，但是每当训练完第一个epoch开始准备跑val数据集的时候，就会出现显存double然后溢出的情况（batch_size在验证和训练时设置相同）。此处将复现笔者出现的问题，并给出解决方案。

正文

原始训练流程：

for eopch in epochs:
	for data,label in train_dataloader：
		model.train()
		train(model,data,label)
	model.eval()
	val(model,test_dataloader)
	#会在执行val的时候显存double,然后out of memory。

改进后训练流程：

for eopch in epochs:
	for data,label in train_dataloader：
		model.train()
		train(model,data,label)
	model.eval()
	with torch.no_grad():
		val(model,test_dataloader)

此时显存不再溢出。

总结

在模型验证时，仍计算梯度，导致模型显存溢出。加上with torch.no_grad():问题解决。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Expect脚本实战：多条件匹配与防卡死技巧

在自动化测试和系统初始化中，我们常常使用 Expect 脚本来完成一系列交互操作，比如自动输入密码、监听输出并作出响应。然而，实际项目中可能遇到多步骤输出匹配的场景：只有在先匹配到某一行输出，再匹配到另一行输出时，才需要做出响应。同时，如果 “testX failed” 出现了，但 “set params error” 没有在合理时间内出现，不要卡死，而是打印警告并继续。这个写法的问题在于：如

2048 AI社区

AI模型版本控制的标签管理：架构师的技巧

在AI模型生命周期中，版本控制是保障模型可追溯性、协作效率与生产可靠性的核心环节。而标签管理作为版本控制的"语义接口"，其设计质量直接决定了团队对模型版本的理解、检索与复用能力。本文从架构师视角出发，结合第一性原理与MLOps实践，系统阐述AI模型标签管理的理论框架、架构设计、实现机制与高级考量。通过拆解标签的"唯一标识+语义描述"本质，提出四维标签模型。