高性能计算十年演进

摘要： 2015-2025年，高性能计算（HPC）经历了从传统通用算力堆叠到AI智算融合的跨越式发展。2015-2018年以多核CPU和P级算力为主，但存在功耗高、利用率低的问题；2019-2022年，GPU和混合精度计算崛起，液冷技术普及；2025年E级算力成为标配，通过CXL 3.0和HBM3e实现内存共享，eBPF技术实现内核级调度，算力利用率提升至75%以上。HPC从科研工具进化为具备AI

jzwspace

803人浏览 · 2026-02-13 11:29:45

jzwspace · 2026-02-13 11:29:45 发布

高性能计算（High-Performance Computing, HPC） 的十年（2015–2025），是从“传统通用算力的极致堆叠”到“AI 导向的智算融合”，再到 2025 年“E 级算力（Exascale）全盛与内核级异构调度”的史诗级进化。

这十年中，超算不再仅仅是气象预测和核模拟的专属，它已深度融入大模型训练、药物发现和工业设计，成为大国竞争的底层硬实力。

一、核心演进的三大技术纪元

1. 通用超算与 P 级算力成熟期 (2015–2018) —— “性能的稳步增长”

核心特征： 重点在于提升 CPU 核心数和互联带宽，实现单机千万亿次浮点运算。
技术状态：
多核时代： Intel Xeon Phi 和早期 NVIDIA GPU 开始在大规模集群中普及。
Linpack 竞速： 这一时期的标杆是“神威·太湖之光”和“天河二号”，展示了大规模并行处理器的威力。
痛点： 功耗比（PUE）过高，且算法对异构硬件的利用率普遍偏低，属于“烧钱买算力”的阶段。

2. AI 融合与异构加速崛起期 (2019–2022) —— “智算的质变”

核心特征： HPC 开始为深度学习优化。GPU 从辅助变成主角，专用 AI 算子进入超算内核。
技术跨越：
混合精度运算： 为了支持大模型，超算不再只追求双精度（FP64），转而大力发展 FP16 和 TF32，计算效率提升了数倍。
高性能互联 (Infiniband HDR/NDR)： 解决了成千上万个节点间的通信瓶颈，数据传输迈入 400G/800G 时代。
液冷普及： 面对恐怖的热密度，冷板式和浸没式液冷成为高性能集群的标配。

3. 2025 E 级超算、eBPF 内核感知与“智算中枢”时代 —— “系统即算力”

2025 现状：
E 级算力（Exascale）全盛： 2025 年，百亿亿次超算已成为顶尖智算中心标配。通过 CXL 3.0 和 HBM3e，HPC 实现了跨节点的全局内存共享，万亿级大模型的训练延迟降低了 80%。
eBPF 驱动的“高性能通信哨兵”： 在 2025 年的超算内核中。OS 利用 eBPF 在内核层实时调度 RDMA 流量。eBPF 钩子能够捕捉网络中的“热点拥塞”并实现纳秒级的动态路由重定向。这种内核级调度彻底解决了多任务并行的长尾延迟问题。
HPC + AI 原生（AI-HPC）： 2025 年，超算不仅仅运行模型，其本身的运维（调优、故障预判）也由 AI 原生驱动。

二、高性能计算核心维度十年对比表

维度	2015 (传统超算时代)	2025 (智算原生时代)	核心跨越点
算力标杆	P 级 (千万亿次)	E 级 (百亿亿次)	实现了算力量级 1000 倍的飞跃
算力重心	双精度 (FP64) 通用算力	混合精度 (FP8/FP16) AI 算力	算力形态从“科学仿真”转向“智能生成”
互联技术	40G / 100G Infiniband	800G NDR / CXL 3.0 统一互联	解决了海量节点间的“通信墙”难题
安全管控	网络边界隔离	eBPF 内核级算子行为审计	实现了对昂贵算力的精细化监控与防护
存储性能	并行文件系统 (Lustre)	分布式全闪存 + 内存池化存储	解决了超大规模模型训练中的 IO 瓶颈

三、 2025 年的技术巅峰：当“算力”融入内核血脉

在 2025 年，高性能计算的先进性体现在其作为**“智能化生产力底座”**的成熟度：

eBPF 驱动的“零损耗算力监测”：
在 2025 年的万卡集群中。

内核态分析： 工程师利用 eBPF 钩子直接在内核中监控 GPU 驱动与 CPU 之间的任务下发链路。eBPF 能够识别并修复由于驱动调用链过长导致的“算力气泡”。这种“硬核调优”让 2025 年的集群算力利用率（MFU）提升到了 75% 以上。

存算一体与 HBM3e：
2025 年的 HPC 节点利用 12 层或 16 层堆叠的 HBM3e，单芯片带宽突破 1.2TB/s。这意味着原本需要数分钟加载的模型参数，现在在毫秒间即可完成同步。
1.58-bit 量化计算：
由于算法的高度优化，2025 年的高性能集群在运行推理任务时，支持极低比特运算，使得单台服务器的并发处理能力提升了 5-10 倍。