高性能计算十年演进
高性能计算(HPC)的十年转型(2015-2025):从传统超算向AI算力底座的演进。早期以CPU集群为主,追求Linpack排名;2019年后GPU成为主算力,实现E级突破;2025年进入智算时代,万卡集群、eBPF内核审计、光交换和液冷技术成为标配。核心变化包括算力从CPU转向GPU/NPU,互联技术升级至200G/800G RoCE,存储架构优化为全闪存方案,能效比提升30倍。HPC已从科研
·
高性能计算(HPC) 的十年(2015–2025),是从“科学研究的专属象牙塔”向“全球 AI 算力底座”的全面转型。
这十年中,HPC 不再仅仅关注单纯的浮点运算峰值(Flops),而是转向了算力、带宽、互联与 AI 模型推理效率的深度融合。
一、 算力底座的三大代际演进
1. 传统的通用 CPU 集群时代 (2015–2018) —— “计算密度竞赛”
- 核心特征: 以 Intel Xeon 等通用处理器为主,辅以早期的 NVIDIA Tesla 加速卡。
- 技术重心: 追求 Linpack 排名(TOP500)。重点在于解决偏微分方程、气象预报、核物理模拟。
- 痛点: 功耗比(GFlops/W)较低,互联带宽(如 DDR4)成为性能瓶颈,系统架构相对僵化。
2. 异构计算与 E 级算力突破期 (2019–2022) —— “加速卡统治”
-
核心特征: 随着 Exascale(百亿亿次) 算力的突破(如 Frontier 超算),GPU 彻底从“加速卡”变成了“主算力”。
-
技术突破:
-
异构并行: 形成了 CPU + GPU + DPU 的三片架构。
-
存算一体萌芽: HBM(高带宽内存)开始在大规模集群中普及,极大缓解了“存储墙”问题。
-
意义: 高性能计算开始大规模转向大分子制药(AlphaFold 等)和工业仿真。
3. AI 超算与算力网络时代 (2023–2025) —— “智算大爆发”
- 2025 现状:
- 万卡/十万卡集群: 2025 年的 HPC 标志不再是单一超算,而是数万张 Blackwell 或高性能 NPU 组成的智算中心(AIDC)。
- 全链路可观测性: 利用 eBPF 技术,HPC 工程师实现了对 TB 级数据流在内核协议栈中的毫秒级审计,彻底解决了大规模通信抖动问题。
- 低精度计算优化: 从 FP64 转向对 AI 更友好的 FP8、甚至 FP4,以换取数倍的推理吞吐量。
二、 HPC 核心技术维度十年对比表
| 维度 | 2015 (传统超算) | 2025 (智算集群) | 核心跨越点 |
|---|---|---|---|
| 计算核心 | 绝大多数为多核 CPU | GPU / NPU / ASIC 占据 90% | 实现了从标量向张量计算的范式转移 |
| 互联技术 | InfiniBand (QDR/FDR) | 200G/800G RoCE v2 / NVLink 5 | 节点间通信从“数据交换”转向“内存共享” |
| 存储架构 | 并行文件系统 (Lustre) | 全闪存 + NVMe-oF + 统一内存 | 解决了 AI 大模型训练的 I/O 吞吐瓶颈 |
| 能效比 | ~2-5 GFlops/W | > 60 GFlops/W (液冷技术普及) | 绿色计算成为大规模部署的前提 |
| 系统调度 | Slurm / PBS 静态调度 | K8s + eBPF 动态感知调度 | 实现了复杂 AI 任务的弹性伸缩 |
三、 2025 年的技术巅峰:液冷、光交换与内核审计
在 2025 年,高性能计算的竞争已深入到系统工程的微观层面:
- eBPF 内核级算力审计 (HPC Telemetry):
在大规模(万卡级)计算任务中,任何微小的内核阻塞都会导致整体任务停滞。
- 拥塞感知: HPC 工程师利用 eBPF 在 Linux 内核层实时监控 RDMA 数据包的重传率。如果某个交换机端口出现拥塞,eBPF 会在微秒级重路由流量,确保并行计算的确定性时延。
- 热点自动迁移: 通过监控系统调用(Syscalls),eBPF 能自动识别计算热点,并建议调度器将任务迁移到更冷或负载更轻的 GPU 组。
- 全路径液冷 (Full Liquid Cooling):
2025 年的智算中心已全面告别风冷。液冷不再只是为了酷炫,而是因为 级别的单芯片热功耗密度已超出气冷物理极限。 - 光交换网络 (Optical Circuit Switching):
为了解决电信号在长距离传输中的损耗和延迟,2025 年的高性能集群开始引入光交换(OCS)。这种直接在光层进行路由的技术,让超大规模集群的通信时延降低了 30% 以上。
四、 总结:从“计算科学”到“计算文明”
过去十年的演进,是将高性能计算从**“昂贵的科研工具”重塑为“支撑人类文明进化(AI)的电力系统”**。
- 2015 年: 你在为 Linpack 跑分能多几个零而自豪。
- 2025 年: 你在纠结如何通过 eBPF 优化网络协议栈,让十万张 GPU 像一个大脑一样协同工作,从而训练出下一个千亿参数的世界模型。
更多推荐



所有评论(0)