Linux下Linpack测试GPU和CPU性能

前面的文章已经介绍了如何搭建Linpack环境：https://blog.csdn.net/liu_feng_zi_/article/details/107429720接下来说明如何使用一、编写运行脚本：新建文件：run_linpack.sh，内容如下：export HPL_DIR =/root/LHC/Linpack/hpl-2.0_FERMI_v15export MKL_NUM_THREADS

千与千与千

4358人浏览 · 2020-07-18 22:25:45

千与千与千 · 2020-07-18 22:25:45 发布

前面的文章已经介绍了如何搭建Linpack环境：https://blog.csdn.net/liu_feng_zi_/article/details/107429720

接下来说明如何使用

一、编写运行脚本：

新建文件：run_linpack.sh，内容如下：

export HPL_DIR =/root/LHC/Linpack/hpl-2.0_FERMI_v15
export MKL_NUM_THREADS=6
export OMP_NUM_THREADS=6
export MKL_DYNAMIC=FALSE
export CUDA_DGEMM_SPLIT=0.836
export CUDA_DTRSM_SPLIT=0.806
export LD_LIBRARY_PATH= $HPL_DIR/src/cuda:$LD_LIBRARY_PATH
$HPL_DIR/bin/CUDA/xhpl

1、MKL_NUM_THREADS：每个进程使用的CPU核的数量

2、OMP_NUM_THREADS：每个GPU使用的CPU核的数量

例如：2个GPU和8个CPU，则OMP_NUM_THREADS=4

3、CUDA_DGEMM_SPLIT：发送给GPU的DGEMM占总的百分比，大致等于(GPU GFLOPS)/(GPU GFLOPS + CPU GFLOPS)，或者( 350 ) / ( 350 + 每个GPU的CPU数量 * 4 * CPU基本频率 )

4、CUDA_DTRSM_SPLIT：发送给GPU的DTRSM占总的百分比，通常比DGEMM低0.05-0.10

5、HPL_DIR：文件的路径

二、HPL.dat参数设置：

之前的文章写过：https://blog.csdn.net/liu_feng_zi_/article/details/107416291

三、执行文件：

单节点执行：

./run_linpack.sh

多节点执行（没有测试过，仅供参考）：

mpirun -np N ./run_linpack.sh
#N为节点数

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Datawhale Happy-LLM 202509 第8次作业

架构就像一位专业的"作家"，它不需要深度理解输入，而是专注于如何流畅地生成文本。正是这种专注，让它成为了当今大语言模型的基石。想象一下，如果AI模型不是"全才"，而是专攻"创作"的"作家"，会是什么样子？让GPT掌握了语言的生成规律，成为真正的"文本创作专家"。——当今所有大语言模型（如ChatGPT）的核心架构！模型通过看例子就能学会判断，不再需要大量训练数据。当GPT系列闭源发展时，Meta公

2048 AI社区

010-网络命令与工具

网络诊断命令与工具摘要本文介绍了网络管理员常用的诊断命令和工具，主要包括ping、traceroute等基本连通性测试工具，以及netstat、tcpdump等高级分析工具。文章详细讲解了ping命令的语法、使用示例和结果分析方法，并提供了Python脚本实现ping结果自动解析与质量评估。同时解释了traceroute的工作原理，通过Mermaid图展示了其追踪网络路径的机制。这些工具能有效诊

2048 AI社区

毕设成品 stm32与深度学习口罩佩戴检测系统(源码+硬件+论文)

本文介绍了一个基于STM32与深度学习的口罩佩戴检测系统，该系统通过PC端摄像头实时检测人脸口罩佩戴情况，并将结果通过WiFi传输至STM32控制器进行显示和报警。系统硬件包括STM32开发板、蜂鸣器、WiFi模块和液晶屏。软件部分采用深度学习模型训练（准确率达97%），结合TCP通信实现上下位机交互。系统能准确识别佩戴口罩、未佩戴及不正确佩戴三种状态，并触发相应报警功能。该项目创新性地结合嵌入式