Infra十年演进

摘要：2015-2025年是AI基础设施从通用云计算向AI原生智算范式转变的十年。经历了三个技术阶段：虚拟化云原生期（2015-2018）聚焦容器化和K8s；算力中心期（2019-2022）以GPU为核心，突破网络和存储瓶颈；2025年进入智算原生时代，实现eBPF内核调度、CXL 3.0内存池化等突破。基础设施演变为具备自愈能力、内核级安全审计和极致能效管理的智能系统，支持万亿参数模型的训练。核

jzwspace

800人浏览 · 2026-02-12 10:08:45

jzwspace · 2026-02-12 10:08:45 发布

AI 基础设施（Infrastructure）的十年（2015–2025），是从“通用云计算”向“AI 原生智算”的范式转移史。这十年间，基础设施从仅仅提供“算力池”，演变为一个感知模型需求、自动编排网络、并具备内核级安全审计的智能生命体。

一、核心演进的三大技术纪元

1. 虚拟化与云原生期 (2015–2018) —— “计算的标准化”

核心特征： 重点在于 Kubernetes (K8s) 的统治和容器化。
技术状态： 算力以 CPU 为主，GPU 只是挂载在虚拟机上的“二等公民”。主要解决的是如何快速部署 Web 应用和微服务。
痛点： 存储瓶颈。传统的分布式存储无法支撑 AI 训练时海量小文件的吞吐需求。

2. 算力中心与异构计算期 (2019–2022) —— “GPU 成为主角”

核心特征： 随着大模型崛起，基础设施转向以 NVIDIA GPU 为中心的异构算力集群。
技术跨越：
高性能互联： InfiniBand 和 RoCE 成为标配，因为万卡协同需要极低的网络延迟。
显存池化： 开始出现 GPUDirect RDMA 技术，允许 GPU 直接绕过 CPU 访问远端内存。
存算分离： AI 原生存储（如 Lustre, WekaIO）通过多级缓存机制解决了模型训练的 I/O 墙。

3. 2025 智算原生、eBPF 内核调度与 CXL 3.0 时代 —— “算力织网”

2025 现状：
万卡集群自动化： 2025 年的基础设施具备了“故障自愈”能力。系统能预测 GPU 的老化，并在故障发生前毫秒级迁移训练状态。
eBPF 驱动的“算力安全与能效哨兵”： 在 2025 年的算力中心。OS 利用 eBPF 在 Linux 内核层实时审计每一份通过网卡流向 GPU 的数据。eBPF 钩子能够监控模型算子的执行效率。如果检测到某个任务正在浪费昂贵的 HBM3e 显存，或者存在非法的模型参数外泄，eBPF 会在内核态直接触发熔断。这实现了物理级的算力成本控制与数据隔离。
CXL 3.0 与统一内存： 彻底打破了显存与系统内存的界限。

二、 AI Infra 核心维度十年对比表

维度	2015 (通用云时代)	2025 (智算原生时代)	核心跨越点
计算核心	CPU 为主，单机调度	万卡级 GPU/NPU 互联集群	算力从“单点”转向“集群级协作”
网络带宽	10GbE / 25GbE	800GbE / 1.6TbE (RoCE v3)	网络成为 AI 训练的第一生产力
显存容量	12GB (K80)	141GB+ (H200) / CXL 内存池	解决了万亿参数模型的驻留问题
安全管控	VPC 逻辑隔离	eBPF 内核级硬件行为审计	实现了 AI 租户间物理级的安全隔离
调度单位	Pod (容器)	算子级分布式切片 (DTensor)	调度粒度从“进程”进化到“数学算子”

三、 2025 年的技术巅峰：当“架构”融入系统脉络

在 2025 年，AI Infra 的先进性体现在其对硬件性能的极致透明化管控：

eBPF 驱动的“网络流自动整形”：
在 2025 年的万卡集体通信（All-Reduce）中。

内核态动态寻址： 工程师利用 eBPF 钩子在内核网络栈实时感知链路拥塞。如果某台交换机出现 10ms 的延迟抖动，eBPF 直接在内核态重写数据包路由，绕过拥塞节点。这种“内核自愈”比传统软件定义网络（SDN）快了 100 倍，确保了大模型训练的 MFU（模型算力利用率）保持在 70% 以上。

液冷与动态功耗编排：
2025 年的基础设施能感知每一个算子的热功耗。当运行 MoE 模型时，系统根据 eBPF 反馈的活跃专家分布，动态调整冷头的流速，实现了算力与能源的闭环匹配。
HBM3e 与 CXL 内存池化：
利用 CXL 3.0 协议，多个节点可以共享同一组海量内存池。通过内核级优化，模型不再需要频繁做 Checkpoint，极大地提升了训练效率。