自AMD EPYC 9005 系列发布以来,我们已对这批Turin架构处理器进行了多项不同基准测试,覆盖多种工作负载与应用场景。测试结果一致显示其性能、能效和性价比均十分出色。今天和大家分享一下关于该系列在作为 GPU/AI 服务器主机处理器时的表现。以下内容是基于AMD EPYC 9575F 完成了一系列相关测试,结果表明它能够超越现有竞争对手,成为 AI 服务器领域更优异的主机处理器选择。
在这里插入图片描述

本次进行对比的两台服务器配置分别如下:
在这里插入图片描述

两台服务器均以最大支持的内存通道数和速率运行,并配备相似的 RAID 存储阵列。操作系统均为 Ubuntu 22.04 LTS,Linux 内核版本 5.15,并统一设置使用“performance”CPU 频率调节器。
在这里插入图片描述

回顾下AMD EPYC 9575F 的规格:它拥有 64 个 Zen 5 核心(128 线程),基础频率 3.3GHz,全核加速频率 4.5GHz,最大加速频率 5.0GHz。该处理器具备 256MB L3 缓存,默认 TDP 为 400 瓦(cTDP 可配置范围 320–400 瓦),官方定价 11,791 美元。
在这里插入图片描述

英特尔至强铂金 8592+ 同样为 64 核/128 线程,但基础频率为 1.9GHz,最大睿频频率 3.9GHz。其缓存为 320MB,TDP 评级为 350 瓦,定价类似(11,600 美元)。除频率优势外,EPYC 9575F 还支持 12 通道 DDR5-6000/6400 内存,而至强铂金 8592+ 仅支持 8 通道 DDR5-5600 内存。
在这里插入图片描述

基准测试表现

AMD 今年初夏曾在其官网博客中公开探讨过高频Turin CPU 在 AI 服务器中的能力,特别强调了主机处理器对提升大语言模型响应速度的重要性。他们使用 vLLM,在 TP8 配置下运行含 700 亿参数的 Llama 3.3 模型,并施加 300、400、500 和 600 毫秒的首令牌时间(TTFT)约束,以评估延迟约束下的吞吐量(使用 Sonnet 3.5 数据集)。

运行Llama 3.3 70B表现

在 300 毫秒和 400 毫秒的延迟约束下,英特尔至强铂金 AI 服务器的性能表现不太好:300 毫秒约束下甚至未能产生任何有效令牌/秒(token/s),400 毫秒约束下改善甚微。
在这里插入图片描述
在 500 毫秒和 600 毫秒约束下,双路至强铂金 8592+ 服务器至少与 AMD EPYC 9575F Turin AI 服务器处于同一量级。但即便放宽延迟约束,AMD EPYC 9005 系列作为八路 H100 GPU AI 服务器的主机 CPU 仍具明显优势。至强铂金 8592+ 服务器的首令牌时间通常比 EPYC 9575F 服务器高 100–200 毫秒。
在这里插入图片描述

运行 Qwen 32B表现

在运行 Qwen 的 QwQ 32B 模型时,相同八 H100 GPU 配置下,AMD EPYC 9575F 服务器实现了比至强铂金服务器更低的延迟。值得注意的是,观察高百分位延迟时,至强铂金服务器的运行间方差远高于Turin HF 服务器。为将运行间标准偏差控制在 2.5% 以下,EPYC 9575F 通常只需三次运行,而至强服务器需约 11 次运行才能达标。
在这里插入图片描述
运行 Qwen 2.5 72B 模型时,AMD EPYC 9575F 服务器在 vLLM 中继续持续实现更低延迟。
在这里插入图片描述
在这些 vLLM 测试中,EPYC 9575F 还提供了更高吞吐量。即使针对较小模型,同价位下 AMD 方案仍具优势。
在这里插入图片描述
运行 DeepSeek MOE 16b chat M.O.E. 模型时,EPYC 9575F 的延迟优势极为明显。
在这里插入图片描述
尽管当前AI性能备受关注,但对于需要为其他GPU加速工作负载(如H100上的CUDA/OptiX渲染或NAMD分子动力学软件)选型主机处理器的用户而言,高频AMD EPYC 9575F在这些领域同样展现出明显优势。由于本次远程测试时间有限,本次的评估主要聚焦于两款服务器在vLLM性能方面的对比。
在这里插入图片描述

总结

AMD EPYC 9575F凭借64个Zen 5核心、5.0GHz最高加速频率以及12通道DDR5-6000/6400内存支持,成为GPU/AI服务器的领先选择。在相同八卡NVIDIA H100 GPU配置下,该处理器在超微AI服务器中作为主机CPU持续提供优于英特尔至强铂金8592+的性能表现。尤其在延迟约束推理场景中,AMD Turin高频处理器在同等64核/128线程配置下显著优于双路英特尔至强方案。
在这里插入图片描述
本轮测试证实了AMD今夏展示的延迟约束AI性能结果,所有测试数据均可复现。采用AMD EPYC 9575F服务器处理器时,vLLMAI工作负载实现了更高吞吐量和更低延迟,明显超越竞品至强处理器。这充分证明了主机处理器选择对GPU/AI服务器的重要性,也再次彰显AMD EPYC 9005系列在该领域的领先地位。
如需了解EPYC 9005系列(包括9575F)在其他领域的AI性能数据,欢迎继续关注我们。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐