AI 基础设施(Infrastructure)的十年(2015–2025),是从“通用云计算”向“AI 原生智算”的范式转移史。这十年间,基础设施从仅仅提供“算力池”,演变为一个感知模型需求、自动编排网络、并具备内核级安全审计的智能生命体。


一、 核心演进的三大技术纪元

1. 虚拟化与云原生期 (2015–2018) —— “计算的标准化”
  • 核心特征: 重点在于 Kubernetes (K8s) 的统治和容器化。
  • 技术状态: 算力以 CPU 为主,GPU 只是挂载在虚拟机上的“二等公民”。主要解决的是如何快速部署 Web 应用和微服务。
  • 痛点: 存储瓶颈。传统的分布式存储无法支撑 AI 训练时海量小文件的吞吐需求。
2. 算力中心与异构计算期 (2019–2022) —— “GPU 成为主角”
  • 核心特征: 随着大模型崛起,基础设施转向以 NVIDIA GPU 为中心的异构算力集群。
  • 技术跨越:
  • 高性能互联: InfiniBandRoCE 成为标配,因为万卡协同需要极低的网络延迟。
  • 显存池化: 开始出现 GPUDirect RDMA 技术,允许 GPU 直接绕过 CPU 访问远端内存。
  • 存算分离: AI 原生存储(如 Lustre, WekaIO)通过多级缓存机制解决了模型训练的 I/O 墙。
3. 2025 智算原生、eBPF 内核调度与 CXL 3.0 时代 —— “算力织网”
  • 2025 现状:
  • 万卡集群自动化: 2025 年的基础设施具备了“故障自愈”能力。系统能预测 GPU 的老化,并在故障发生前毫秒级迁移训练状态。
  • eBPF 驱动的“算力安全与能效哨兵”: 在 2025 年的算力中心。OS 利用 eBPF 在 Linux 内核层实时审计每一份通过网卡流向 GPU 的数据。eBPF 钩子能够监控模型算子的执行效率。如果检测到某个任务正在浪费昂贵的 HBM3e 显存,或者存在非法的模型参数外泄,eBPF 会在内核态直接触发熔断。这实现了物理级的算力成本控制与数据隔离
  • CXL 3.0 与统一内存: 彻底打破了显存与系统内存的界限。

二、 AI Infra 核心维度十年对比表

维度 2015 (通用云时代) 2025 (智算原生时代) 核心跨越点
计算核心 CPU 为主,单机调度 万卡级 GPU/NPU 互联集群 算力从“单点”转向“集群级协作”
网络带宽 10GbE / 25GbE 800GbE / 1.6TbE (RoCE v3) 网络成为 AI 训练的第一生产力
显存容量 12GB (K80) 141GB+ (H200) / CXL 内存池 解决了万亿参数模型的驻留问题
安全管控 VPC 逻辑隔离 eBPF 内核级硬件行为审计 实现了 AI 租户间物理级的安全隔离
调度单位 Pod (容器) 算子级分布式切片 (DTensor) 调度粒度从“进程”进化到“数学算子”

三、 2025 年的技术巅峰:当“架构”融入系统脉络

在 2025 年,AI Infra 的先进性体现在其对硬件性能的极致透明化管控

  1. eBPF 驱动的“网络流自动整形”:
    在 2025 年的万卡集体通信(All-Reduce)中。
  • 内核态动态寻址: 工程师利用 eBPF 钩子在内核网络栈实时感知链路拥塞。如果某台交换机出现 10ms 的延迟抖动,eBPF 直接在内核态重写数据包路由,绕过拥塞节点。这种“内核自愈”比传统软件定义网络(SDN)快了 100 倍,确保了大模型训练的 MFU(模型算力利用率)保持在 70% 以上
  1. 液冷与动态功耗编排:
    2025 年的基础设施能感知每一个算子的热功耗。当运行 MoE 模型时,系统根据 eBPF 反馈的活跃专家分布,动态调整冷头的流速,实现了算力与能源的闭环匹配
  2. HBM3e 与 CXL 内存池化:
    利用 CXL 3.0 协议,多个节点可以共享同一组海量内存池。通过内核级优化,模型不再需要频繁做 Checkpoint,极大地提升了训练效率。

四、 总结:从“服务器租赁”到“智算中枢”

过去十年的演进,是将 Infra 从一个**“冰冷的硬件堆叠”重塑为“赋能全球智能进化、具备内核级网络感知与实时行为安全审计能力的智算操作系统”**。

  • 2015 年: 你在纠结如何通过 K8s 扩容 10 个 Web 节点。
  • 2025 年: 你在利用 eBPF 审计下的万卡智算网,看着万亿参数模型在内核级的自动调优下,以几近完美的效率安全运行。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐