深度模型训练错误

weixin_43870390

961人浏览 · 2024-03-07 14:37:25

weixin_43870390 · 2024-03-07 14:37:25 发布

以前跑的时候不报错，隔了几个月跑报错了。

错误一

RuntimeError: strides() called on an undefined Tensor。
RuntimeError: strides() called on an undefined Tensor。
RuntimeError: strides() called on an undefined Tensor。

这个是script_model.save(os.path.join(model_dir, ‘init.zip’))地方报的错，就是init.zip保存的时候有问题，init.zip文件的大小我看是不对的。

解决方法

这个其实没有解决，把这个相关代码删除了，就不报错了，项目也用不到。

-        script_model = torch.jit.script(model)
-        script_model.save(os.path.join(model_dir, 'init.zip'))
+        #script_model = torch.jit.script(model)
+        #script_model.save(os.path.join(model_dir, 'init.zip'))```

错误二

torch.distributed.elastic.multiprocessing.errors.ChildFailedError
torch.distributed.elastic.multiprocessing.errors.ChildFailedError
torch.distributed.elastic.multiprocessing.errors.ChildFailedError

详细错误：

WARNING:torch.distributed.elastic.multiprocessing.api:Sending process 1586 closing signal SIGTERM
ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 1) local_rank: 0 (pid: 1585) of binary: /home/work/miniconda3/bin/python
Traceback (most recent call last):
  File "/home/work/miniconda3/bin/torchrun", line 33, in <module>
    sys.exit(load_entry_point('torch==1.13.0', 'console_scripts', 'torchrun')())
  File "/home/work/miniconda3/lib/python3.8/site-packages/torch/distributed/elastic/multiprocessing/errors/__init__.py", line 346, in wrapper
    return f(*args, **kwargs)
  File "/home/work/miniconda3/lib/python3.8/site-packages/torch/distributed/run.py", line 762, in main
    run(args)
  File "/home/work//miniconda3/lib/python3.8/site-packages/torch/distributed/run.py", line 753, in run
    elastic_launch(
  File "/home/work/miniconda3/lib/python3.8/site-packages/torch/distributed/launcher/api.py", line 132, in __call__
    return launch_agent(self._config, self._entrypoint, list(args))
  File "/home/work//miniconda3/lib/python3.8/site-packages/torch/distributed/launcher/api.py", line 246, in launch_agent
    raise ChildFailedError(
torch.distributed.elastic.multiprocessing.errors.ChildFailedError:
========================================================
wespeaker/bin/train.py FAILED
------------------------------------------------------------
Failures:
  <NO_OTHER_FAILURES>
------------------------------------------------------------
Root Cause (first observed failure):
[0]:
  time      : 2024-03-06_10:13:49
  host      : tjtx178-33-25.58os.org
  rank      : 0 (local_rank: 0)
  exitcode  : 1 (pid: 1585)
  error_file: <N/A>
  traceback : To enable traceback see: https://pytorch.org/docs/stable/elastic/errors.html
========================================================

错误原因：(只是其中一种原因，不代表所有，可以尝试用下面的方法解决)

CPU内存不够。

解决方法

重新建立docker 容器，shm设置为较大的数值比如150G
减小batch_size

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI建站进阶指南：让你的个人网站从“能用“到“惊艳“

《个人网站进阶指南：6大技巧打造惊艳求职作品》摘要本文针对已具备基础个人网站的求职者，提供6个无需编程的AI优化技巧：1）通过微交互设计（如按钮动画、滚动效果）提升动态体验；2）运用字体/颜色/留白构建视觉层次；3）采用2026流行配色方案（如墨绿+米白）打破模板化；4）优化排版参数（行距35字/行）增强可读性；5）内联代码/图片懒加载加速页面响应；6）添加SEO标签提升搜索可见性。文章强调AI