LLM推理中 KVCache 提示推理效率的几点应用

本文探讨了大模型推理中的KVCache优化技术。KVCache作为Transformer架构中缓存历史token信息的机制，其规模庞大(单个token可达128KB)且管理复杂，成为制约推理效率的主要瓶颈。文章系统介绍了计算层面(GQA/MQA、量化)、调度层面(PagedAttention、Prefix Caching)和架构层面(分布式缓存池)的优化方案，并分享了Mooncake系统的工程实践

MR_Teen

623人浏览 · 2026-01-14 14:59:20

MR_Teen · 2026-01-14 14:59:20 发布

LLM推理中 KVCache 提示推理效率的几点应用

这是基于2025 AICon大会的马腾的演讲整理而成

通过kvCache的优化提升效率，如模型算法优化减少KVCache产生量，KVCache压缩，KVCache复用，KVCache共享，

前言

在大模型应用的浪潮中，有一个问题始终困扰着从业者：如何在保证服务质量的同时，降低推理成本、提高吞吐效率？答案或许就藏在"KVCache"这个看似技术化的概念中。

KVCache，全称Key-Value Cache，是大模型推理过程中最核心的优化点之一。随着模型参数规模的急剧膨胀，KVCache的存储和传输开销已经成为制约大模型规模化应用的主要瓶颈。本文将从技术原理、优化策略到工程实践，深入解析KVCache优化的来龙去脉。

一、KVCache是什么

1.1 基本概念

在Transformer架构中，每个token的输出都需要与之前所有的token进行注意力计算。为了避免重复计算，系统会将之前token的Key和Value向量缓存起来，这就是KVCache的由来。

形象地说，KVCache就像一个"记忆缓冲区"，它存储了对话历史的上下文信息，使得模型在生成下一个token时不需要重新计算所有的历史信息。从计算角度看，KVCache的引入将自回归生成的时间复杂度从O(n²)降低到了O(n)，大大提升了推理效率。

1.2 KVCache的规模

然而，KVCache的规模往往超出我们的想象。以一个中等规模的大模型为例：

每个token的KVCache大小约为几十KB，取决于模型的层数、注意力头数和向量维度。假设一个模型有32层，每层32个注意力头，向量维度为128，那么每个token的KVCache约为128KB。

在实际的对话场景中，一个请求可能包含数千个token，KVCache总量可能达到几百MB甚至更高。如果考虑高并发场景，系统需要同时服务大量的请求，KVCache的总量可能达到TB甚至PB级别。这对存储和传输都提出了极高的要求。

1.3 KVCache的挑战

KVCache带来的挑战主要体现在以下几个方面：

内存占用是首要问题。GPU显存是稀缺资源，大量的KVCache会占用宝贵的显存空间，影响模型的并行处理能力。

传输开销同样不容忽视。在分布式推理场景下，KVCache需要在不同的GPU甚至不同的服务器之间传输，带宽成为重要的瓶颈。

管理复杂性也不可小觑。KVCache的生命周期管理、缓存策略、淘汰机制等都需要精心设计，复杂的管理逻辑本身也会带来额外的开销。

二、KVCache优化技术全景

2.1 计算层面的优化

在计算层面，KVCache的优化主要关注如何减少计算量和提高计算效率：

GQA/MQA（Grouped Multi-Query Attention） 是目前最主流的优化方案。传统的Multi-Head Attention每个头都有独立的KV向量，而GQA/MQA将多个头分组共享KV向量，在几乎不损失模型效果的前提下，大幅减少了KVCache的存储和计算开销。

MLA（Multi-head Latent Attention） 是一种更加激进的优化方案，它通过低秩压缩的方式减少KVCache的维度，进一步降低存储和计算开销。

YOCO/CLA（Cross-Layer Attention） 则从跨层的角度寻找优化空间，通过层间的KVCache共享来减少冗余。

量化技术也是重要的优化手段。FP8、Int4等量化格式可以在可接受的精度损失下，显著减少KVCache的存储空间。

2.2 调度层面的优化

在调度层面，优化重点是如何更高效地管理和利用KVCache：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

PagedAttention 是vLLM提出的革命性方案。传统的KVCache管理采用连续的内存分配方式，容易产生内存碎片和浪费。PagedAttention借鉴了操作系统的虚拟内存思想，采用分页管理KVCache，大大提高了内存利用率。

Continus Batching 是一种动态批处理策略，允许不同请求在不同的时间点加入和退出批处理，提高了系统的整体吞吐效率。

Prefix Caching 是SGLang提出的优化方案。对于具有相同前缀的请求（如系统提示词），可以共享KVCache，避免重复计算。RadixAttention数据结构可以高效地管理和查找可复用的KVCache。

Sparse KVCache 是DeepSeek NSA探索的方向。通过识别和过滤不重要的token，有选择地保留KVCache，在效果和效率之间取得平衡。

2.3 架构层面的优化

在架构层面，Mooncake等系统探索了更加激进的优化方案：

分布式KVCache池：将KVCache从单个GPU中解放出来，形成独立的分布式缓存服务。不同的推理节点可以按需访问和共享KVCache，提高了资源的利用效率。

预取和预填充策略：通过智能预测用户的下一步请求，提前进行KVCache的预取和预填充，减少等待时间。

异构存储架构：利用CPU内存、NVMe SSD等更便宜的存储介质来扩展KVCache的容量，通过精细的冷热数据管理来平衡成本和性能。

三、Mooncake的工程实践

3.1 系统设计理念

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Mooncake是我们在KVCache优化方面的工程实践，其设计理念可以概括为"分离"和"协同"。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

分离指的是将KVCache从模型推理过程中分离出来，形成独立的服务。模型推理节点不再负责KVCache的存储和管理，而是专注于计算任务。这种分离带来了几个好处：推理节点可以更专注于计算，提高资源利用率；KVCache服务可以独立扩展，适应不同的负载特征；不同推理节点之间可以共享KVCache，减少重复计算。

协同指的是通过精细的调度策略，实现KVCache服务与推理服务之间的协同。Mooncake实现了多种协同机制，包括基于预测的预取策略、基于优先级的缓存淘汰策略、基于负载的流控策略等。

3.2 关键技术实现

Transfer Engine：Mooncake的核心是一个高效的KVCache传输引擎。它解决了几个关键问题：如何高效地进行跨节点KVCache传输？如何处理网络抖动和传输失败？如何平衡传输延迟和带宽利用率？通过自研的传输协议和调度算法，Mooncake实现了毫秒级的KVCache传输延迟。

缓存管理策略：Mooncake实现了多种缓存管理策略，包括LRU、LFU、优先级等。针对AI场景的特点，还设计了基于语义相似度的缓存策略，可以识别和复用语义相近的KVCache。

预取和预填充：基于历史请求的模式分析，Mooncake可以预测用户的下一步请求，提前进行KVCache的预取。对于系统提示词等高频复用的内容，Moonake会进行主动的预填充，确保随时可用。

3.3 效果验证

在实际部署中，Mooncake带来了显著的效果提升：

TTFT（Time To First Token）降低30%：通过预取和预填充策略，用户的首token响应时间显著缩短。

吞吐量提升2.6倍：通过更高效的内存管理和调度策略，系统可以服务更多的并发请求。

GPU利用率提升：KVCache的分离使得GPU可以更专注于计算任务，利用率得到了明显的提升。

四、经验总结与展望

4.1 实践经验

在KVCache优化的实践中，我们总结了几点经验：

量化指标至关重要：KVCache优化效果需要通过准确的指标来衡量。首token延迟、token间延迟、吞吐量、GPU利用率等指标都需要持续监控和优化。

场景驱动优化：不同的应用场景对KVCache的需求不同。在线服务更关注延迟，离线批处理更关注吞吐，混合负载需要综合权衡。优化策略应该因场景而异。

系统思维不可或缺：KVCache优化不是孤立的技术点，而是涉及到计算、存储、网络、调度等多个方面的系统工程。需要从系统的角度来思考和解决问题。

4.2 未来方向

展望未来，KVCache优化还有几个值得关注的方向：

更激进的压缩技术：包括基于语义的压缩、基于神经网络的压缩等，在保证效果的前提下进一步减少KVCache的规模。

更智能的预取策略：结合用户行为预测和场景理解，实现更加精准的预取。

更广泛的共享机制：探索跨用户、跨会话、跨应用的KVCache共享，进一步提高资源利用效率。

结语

KVCache优化是大模型规模化应用的关键一环。它不像模型训练那样炫目，也不像产品设计那样有趣，但它是支撑大模型落地的底层基础设施。

在这个领域，没有一劳永逸的解决方案，只有持续不断的优化和迭代。随着模型规模的进一步扩大和应用场景的日益丰富，KVCache优化将持续成为重要的研究课题和工程实践方向。

让我们一起，在这个看似枯燥却至关重要的领域中，探索更多的可能性。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Kubernetes 集群架构与高可用机制分析

组件高可用方式关键配置多实例 + LB3 实例，Endpoints 自动负载均衡Leader 选举Leader 选举etcdRaft 集群3 节点，Quorum=2CoreDNSDeployment (2 副本)Kubelet独立运行 + 自动重启Containerd独立运行 + 无状态设计CiliumDaemonSet每节点运行 + Shim 隔离完全高可用- 控制平面组件均支持故障自动转移无单

2048 AI社区

基于深度学习的乳腺癌超声图像智能诊断系统

2048 AI社区

入局AI智能体如何从0到1，选大厂平台还是自研？

带来的、面向未来的“稳”。当你的智能体需要处理每秒数千次的并发请求，需要与某个极其冷门的老旧系统API对接，或需要实现一种平台不支持的独特推理逻辑时，自研的“稳”就体现出来了。用大厂平台快速搭建外围的、标准的智能体应用（如客服助手、内容生成），同时组建团队，针对最核心的业务逻辑进行自研，打造不可替代的“王牌智能体”。明确你的阶段，分析你的资源，然后，开始行动。你的能力边界，被平台开放的工具集、模型