"训练agent的前期工作"

  • 本篇博客旨在完全从0开始,到进行agent的核心训练,即预训练之前的一系列操作步骤说明。
  • 这里以MiniMind模型为例,项目的具体介绍可关注github官网minimind的开源项目。

软硬件配置

分享本人的软硬件配置(仅供参考)
  • GPU: NVIDIA GeForce RTX 5060 Laptop GPU
  • CUDA==12.9
  • Python==3.11.9
  • requirements.txt

第0步

git clone https://github.com/jingyaogong/minimind.git

Ⅰ 从0开始自己训练

1.环境准备

pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple
注:提前测试Torch是否可用cuda
import torch
print(torch.cuda.is_available())

如输出False,则不可用,进入下一步,安装Torch。

2.Torch的下载与安装

首先,需要查看自己电脑对应的CUDA版本(不同显卡对应的CUDA版本不一样,这个一定要注意!💡)

查看CUDA版本的方法

同时按住win+R,在弹出窗口输入powershellcmd
运行窗口

进入终端中,输入nvidia-smi,会输出NVIDIA系统管理接口,右上角的CUDA Version就是本电脑对用的CUDA版本。
cmd

随后,自行去PyTorch官网torch,找到对应CUDA版本的安装指令,即下图中Run this Command中的指令,复制到编程软件中的终端中回车即可。

pytorch官网

如果没有,就像我的这种情况,CUDA版本为12.9,但这里没有,就点击下方的Previous versions of PyTorch,在里边儿找对应的CUDA 12.9的安装命令。

CUDA12.9

但是有的时候由于国内限速的问题,可能会出现安装失败的问题,这时候可以在安装命令的最后加上清华镜像来加快下载进程,即在原有安装命令后面加上-i https://pypi.tuna.tsinghua.edu.cn/simple

如果仍旧不行,可以直接安装对应的torch、torchvision、torchaudio对应版本的whl文件,即上一张图片中的torch2.8.0 ,torchvision0.23.0, torchaudio==2.8.0下载链接

注意:whl文件下载须知

不要找带有cpu的,要找win_amd64.whl的。

架构名称 全称/别名 核心含义 适用场景
x86_64 x64、Intel64 英特尔主导的64位x86架构(最主流的PC架构),AMD 也兼容这个架构 绝大多数 Windows台式机/笔记本(Intel/AMD处理器)
amd64 和x86_64完全等价 早期 AMD 率先推出64位x86扩展,因此Windows/macOS等系统里常用amd64指代x86_64 同x86_64,是Windows安装包中最常见的标注
arm64 AArch64 ARM公司的64位精简指令集架构(低功耗) 苹果M系列芯片(Mac)、部分平板/手机/ARM架构PC

👉上面的表格内容为一些名词及其解释。

至此,大模型预训练之前的基础步骤讲解完毕!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐