高性能计算(HPC) 的十年(2015–2025),是从“科学研究的专属象牙塔”向“全球 AI 算力底座”的全面转型。

这十年中,HPC 不再仅仅关注单纯的浮点运算峰值(Flops),而是转向了算力、带宽、互联与 AI 模型推理效率的深度融合。


一、 算力底座的三大代际演进

1. 传统的通用 CPU 集群时代 (2015–2018) —— “计算密度竞赛”
  • 核心特征: 以 Intel Xeon 等通用处理器为主,辅以早期的 NVIDIA Tesla 加速卡。
  • 技术重心: 追求 Linpack 排名(TOP500)。重点在于解决偏微分方程、气象预报、核物理模拟。
  • 痛点: 功耗比(GFlops/W)较低,互联带宽(如 DDR4)成为性能瓶颈,系统架构相对僵化。
2. 异构计算与 E 级算力突破期 (2019–2022) —— “加速卡统治”
  • 核心特征: 随着 Exascale(百亿亿次) 算力的突破(如 Frontier 超算),GPU 彻底从“加速卡”变成了“主算力”。

  • 技术突破:

  • 异构并行: 形成了 CPU + GPU + DPU 的三片架构。

  • 存算一体萌芽: HBM(高带宽内存)开始在大规模集群中普及,极大缓解了“存储墙”问题。

  • 意义: 高性能计算开始大规模转向大分子制药(AlphaFold 等)和工业仿真。

3. AI 超算与算力网络时代 (2023–2025) —— “智算大爆发”
  • 2025 现状:
  • 万卡/十万卡集群: 2025 年的 HPC 标志不再是单一超算,而是数万张 Blackwell 或高性能 NPU 组成的智算中心(AIDC)。
  • 全链路可观测性: 利用 eBPF 技术,HPC 工程师实现了对 TB 级数据流在内核协议栈中的毫秒级审计,彻底解决了大规模通信抖动问题。
  • 低精度计算优化: 从 FP64 转向对 AI 更友好的 FP8、甚至 FP4,以换取数倍的推理吞吐量。

二、 HPC 核心技术维度十年对比表

维度 2015 (传统超算) 2025 (智算集群) 核心跨越点
计算核心 绝大多数为多核 CPU GPU / NPU / ASIC 占据 90% 实现了从标量向张量计算的范式转移
互联技术 InfiniBand (QDR/FDR) 200G/800G RoCE v2 / NVLink 5 节点间通信从“数据交换”转向“内存共享”
存储架构 并行文件系统 (Lustre) 全闪存 + NVMe-oF + 统一内存 解决了 AI 大模型训练的 I/O 吞吐瓶颈
能效比 ~2-5 GFlops/W > 60 GFlops/W (液冷技术普及) 绿色计算成为大规模部署的前提
系统调度 Slurm / PBS 静态调度 K8s + eBPF 动态感知调度 实现了复杂 AI 任务的弹性伸缩

三、 2025 年的技术巅峰:液冷、光交换与内核审计

在 2025 年,高性能计算的竞争已深入到系统工程的微观层面:

  1. eBPF 内核级算力审计 (HPC Telemetry):
    在大规模(万卡级)计算任务中,任何微小的内核阻塞都会导致整体任务停滞。
  • 拥塞感知: HPC 工程师利用 eBPF 在 Linux 内核层实时监控 RDMA 数据包的重传率。如果某个交换机端口出现拥塞,eBPF 会在微秒级重路由流量,确保并行计算的确定性时延
  • 热点自动迁移: 通过监控系统调用(Syscalls),eBPF 能自动识别计算热点,并建议调度器将任务迁移到更冷或负载更轻的 GPU 组。
  1. 全路径液冷 (Full Liquid Cooling):
    2025 年的智算中心已全面告别风冷。液冷不再只是为了酷炫,而是因为 级别的单芯片热功耗密度已超出气冷物理极限。
  2. 光交换网络 (Optical Circuit Switching):
    为了解决电信号在长距离传输中的损耗和延迟,2025 年的高性能集群开始引入光交换(OCS)。这种直接在光层进行路由的技术,让超大规模集群的通信时延降低了 30% 以上。

四、 总结:从“计算科学”到“计算文明”

过去十年的演进,是将高性能计算从**“昂贵的科研工具”重塑为“支撑人类文明进化(AI)的电力系统”**。

  • 2015 年: 你在为 Linpack 跑分能多几个零而自豪。
  • 2025 年: 你在纠结如何通过 eBPF 优化网络协议栈,让十万张 GPU 像一个大脑一样协同工作,从而训练出下一个千亿参数的世界模型。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐