本地安装

官方网站,需要登录

 选择Windows Host下载安装

服务器安装

选择Linux CLI .deb下载,上传到服务器之后,执行以下命令,默认会安装在/opt/nvidia/nsight-systems-cli/2023.2.1/target-linux-x64/,nsys在/usr/local/bin/nsys也有一份,所以直接运行nsys即可。

apt install ./NsightSystems-linux-cli-public-2023.2.1.122-3259852.deb

GUI使用

打开界面之后是下面的界面,点击下拉菜单,连接到远程服务器。

 选择红色的SSH,按下enter,之后在点击右侧的小扳手图标,填写服务器的用户和密码。

连接成功之后会显示如下界面,在Command line中填写执行的命令,之后点击右侧的Start开始执行。

CLI使用

CLI(command-line interface,命令行界面),指通过在命令行执行命令生成nsight文件的方式。

#application是程序,application-arguments是程序参数
nsys [global-options] profile [options] <application> [application-arguments]
global-options options短 options长 options值 含义
-h -f --force-overwrite true,false 覆盖已有的相同名称的文件
-v -o --output filename 输出文件的名称
-t --trace cuda,cublas,nvtx 指定trace的api
--stats true,false 生成统计信息

#示例,产生的nsight_t5_fp16下载到本地用nsight工具查看
nsys profile -o nsight_t5_fp16 -f true python temp.py

GUI使用技巧

  • 鼠标拖动可以查看此段的kernel执行时间
  • 双击选中区域可以放大查看,ctrl+鼠标滚轮也可以放大/缩小
  • 在选中区域右键,点击Filter and Reorder,可以重排选中区域的核函数耗时占比和排行。继续右键选中区域,点击Remove Filter,恢复到之前的核函数耗时占比和排行。
  • 在左侧边栏Timeline View右键,点击Show in Events View,可以按Duration排序核函数
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐