在刚刚结束的存储领域顶级学术会议 FAST '26(24th USENIX Conference on File and Storage Technologies) 上,阿里云(Alibaba Cloud)联合上海交通大学(SJTU)、Solidigm 共同发表的论文 《Here, There and Everywhere: The Past, the Present and the Future of Local Storage in Cloud》 获得最佳论文奖(Best Paper Award)。本界大会仅有两篇论文获此殊荣。值得一提的是,这也是阿里云存储相关研究在过去四年内第三次获得国际学术届的最高荣誉。

本论文从大规模生产实践出发,直面云原生时代本地存储的核心矛盾:一方面要追求更低时延与更高吞吐,另一方面必须满足云上多租户、可运维、可演进、可用性保障等工程要求。论文给出了清晰的技术路线图与可验证的体系化经验总结,也标志着阿里云在存储基础设施“软硬一体化”探索上获得了国际学术界的高度认可。

论文不仅系统阐述了阿里云本地盘(Local Storage)技术从纯软件到软硬协同的“三代进化史”(以咖啡浓度由低到高命名:Espresso、Doppio、Ristretto),更提出了一种前瞻性的端云融合存储架构——Latte。该架构通过基于机器学习的 IO 调度(ML IO Dispatcher)与cache准入控制技术(Admission Controller),在更轻量的系统开销下实现更稳定、更接近“极致”的时延与吞吐体验。在 AI 大模型推理等新兴场景中,Latte 可构建高性能、大容量、高性价比的弹性缓存层,有效降低 GPU 等计算资源消耗,提升推理效率与响应速度,为云原生与 AI 负载提供了兼顾性能确定性与资源效率的新工程范式。

阿里云本地盘技术演进与架构变革

论文用“咖啡”隐喻概括本地盘技术不断“提纯”的过程:每一代都围绕瓶颈点做架构级调整,在性能、隔离、可运维性与可演进性之间寻找更优解。最初,ESPRESSO 通过用户态轮询架构(SPDK)释放 NVMe 性能,却牺牲了 CPU 效率和裸金属支持;随后,DOPPIO 借力 ASIC DPU 卸载虚拟化,提升了隔离与交付能力,但硬件固化难以跟上 SSD 快速迭代,也缺乏对复杂云特性的支持;如今的 RISTRETTO 采用 ASIC 与 ARM SoC 软硬协同设计,既保留高性能数据面,又通过可编程控制面实现灵活的 FTL 与卷管理,已在大规模场景中逼近物理盘性能极限

RISTRETTO 架构

探究本盘形态:面向未来的混合架构 Latte

论文的核心在于提出了下一代存储愿景——Latte(一种将本地盘与云端存储能力进行融合的混合架构)

在 Latte 中,本地介质承担“近端、快速、吸收突发与热点”的职责;云端能力承担“持久化、可用性与弹性”的职责。两者通过统一的数据路径与调度机制协同工作,使系统既能保持接近本地的响应特性,也能获得云上可运维、可扩展、可恢复的工程能力

本地介质以 append-only 方式高效吸收突发流量和热点数据,提供微秒级低延迟,规避了传统网络存储的长尾延迟问题;为精准调度数据流向,系统引入轻量级 ML 调度器,基于 I/O 特征动态预测热点,在 CPU 开销低于 10% 的情况下实现 95.6% 的长尾延迟预测准确率,并支持在线自适应更新;在缓存管理方面,摒弃传统的LRU,采用优化的S3-FIFO 淘汰策略,在保持对缓存盘写友好(写放大为1)的同时显著提升热点命中率,最终达成高达 80% 的读命中效果,兼顾了性能、效率。

深度解读:Latte 的优势是什么?

1.“更稳”的性能体验(Tail Latency Friendly)

Latte 的设计重点之一是应对云上真实业务最头痛的长尾:抖动、拥塞、突发与干扰。通过“本地吸收 + 智能分流”,系统更容易将性能波动控制在可预期范围内。

2.打破“本地”限制 (Elasticity & Availability)

传统本地盘受限于物理服务器的硬盘槽位数量和大小,容量无法动态扩容,且单机故障会导致服务中断。Latte 将数据最终持久化在云盘,使得本地存储具备了云盘级别的弹性伸缩能力和故障恢复能力。在write-through 模式下,即使物理机宕机,数据依然安全存储在后端 EBS 中。

3.开源贡献与生态

该论文的研究基于广泛使用的开源框架(SPDK)和通用硬件。团队在设计 Latte 时,深度集成了Solidigm 合作开发的开源存储加速框架 CSAL,为业界提供了一个可复刻的、软硬结合的存储分层最佳实践。

结语

从 Espresso 到 Latte,不仅仅是本地存储形态的变化,更是云计算底层存储架构从“资源孤岛”走向“资源池化与融合”的缩影。阿里云通过这篇 FAST '26 论文,向业界展示了如何利用软硬协同(ASIC+SoC)与端云融合(Local+EBS)的技术红利,打破存储性能、成本与可靠性的“不可能三角”。未来,这种混合存储架构或将成为云原生数据库、AI 推理以及大数据分析等高性能场景的重要基础能力之一。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐