高性能计算十年演进

高性能计算（HPC）的十年转型（2015-2025）：从传统超算向AI算力底座的演进。早期以CPU集群为主，追求Linpack排名；2019年后GPU成为主算力，实现E级突破；2025年进入智算时代，万卡集群、eBPF内核审计、光交换和液冷技术成为标配。核心变化包括算力从CPU转向GPU/NPU，互联技术升级至200G/800G RoCE，存储架构优化为全闪存方案，能效比提升30倍。HPC已从科研

jzwspace

427人浏览 · 2026-02-02 09:11:34

jzwspace · 2026-02-02 09:11:34 发布

高性能计算（HPC） 的十年（2015–2025），是从“科学研究的专属象牙塔”向“全球 AI 算力底座”的全面转型。

这十年中，HPC 不再仅仅关注单纯的浮点运算峰值（Flops），而是转向了算力、带宽、互联与 AI 模型推理效率的深度融合。

一、算力底座的三大代际演进

1. 传统的通用 CPU 集群时代 (2015–2018) —— “计算密度竞赛”

核心特征： 以 Intel Xeon 等通用处理器为主，辅以早期的 NVIDIA Tesla 加速卡。
技术重心： 追求 Linpack 排名（TOP500）。重点在于解决偏微分方程、气象预报、核物理模拟。
痛点： 功耗比（GFlops/W）较低，互联带宽（如 DDR4）成为性能瓶颈，系统架构相对僵化。

2. 异构计算与 E 级算力突破期 (2019–2022) —— “加速卡统治”

核心特征： 随着 Exascale（百亿亿次） 算力的突破（如 Frontier 超算），GPU 彻底从“加速卡”变成了“主算力”。
技术突破：
异构并行： 形成了 CPU + GPU + DPU 的三片架构。
存算一体萌芽： HBM（高带宽内存）开始在大规模集群中普及，极大缓解了“存储墙”问题。
意义： 高性能计算开始大规模转向大分子制药（AlphaFold 等）和工业仿真。

3. AI 超算与算力网络时代 (2023–2025) —— “智算大爆发”

2025 现状：
万卡/十万卡集群： 2025 年的 HPC 标志不再是单一超算，而是数万张 Blackwell 或高性能 NPU 组成的智算中心（AIDC）。
全链路可观测性： 利用 eBPF 技术，HPC 工程师实现了对 TB 级数据流在内核协议栈中的毫秒级审计，彻底解决了大规模通信抖动问题。
低精度计算优化： 从 FP64 转向对 AI 更友好的 FP8、甚至 FP4，以换取数倍的推理吞吐量。

二、 HPC 核心技术维度十年对比表

维度	2015 (传统超算)	2025 (智算集群)	核心跨越点
计算核心	绝大多数为多核 CPU	GPU / NPU / ASIC 占据 90%	实现了从标量向张量计算的范式转移
互联技术	InfiniBand (QDR/FDR)	200G/800G RoCE v2 / NVLink 5	节点间通信从“数据交换”转向“内存共享”
存储架构	并行文件系统 (Lustre)	全闪存 + NVMe-oF + 统一内存	解决了 AI 大模型训练的 I/O 吞吐瓶颈
能效比	~2-5 GFlops/W	> 60 GFlops/W (液冷技术普及)	绿色计算成为大规模部署的前提
系统调度	Slurm / PBS 静态调度	K8s + eBPF 动态感知调度	实现了复杂 AI 任务的弹性伸缩

三、 2025 年的技术巅峰：液冷、光交换与内核审计

在 2025 年，高性能计算的竞争已深入到系统工程的微观层面：

eBPF 内核级算力审计 (HPC Telemetry)：
在大规模（万卡级）计算任务中，任何微小的内核阻塞都会导致整体任务停滞。

拥塞感知： HPC 工程师利用 eBPF 在 Linux 内核层实时监控 RDMA 数据包的重传率。如果某个交换机端口出现拥塞，eBPF 会在微秒级重路由流量，确保并行计算的确定性时延。
热点自动迁移： 通过监控系统调用（Syscalls），eBPF 能自动识别计算热点，并建议调度器将任务迁移到更冷或负载更轻的 GPU 组。

全路径液冷 (Full Liquid Cooling)：
2025 年的智算中心已全面告别风冷。液冷不再只是为了酷炫，而是因为级别的单芯片热功耗密度已超出气冷物理极限。
光交换网络 (Optical Circuit Switching)：
为了解决电信号在长距离传输中的损耗和延迟，2025 年的高性能集群开始引入光交换（OCS）。这种直接在光层进行路由的技术，让超大规模集群的通信时延降低了 30% 以上。