一文搞懂LLM高吞吐

about0406

823人浏览 · 2025-12-09 15:46:41

about0406 · 2025-12-09 15:46:41 发布

四、吞吐率 vs 延迟（容易混淆的两个指标）

总结

在大模型部署和推理的语境中，高吞吐（High Throughput） 指的是单位时间内，模型能够处理的请求数量或生成的 token 总数越多，吞吐率就越高。它是衡量模型服务性能的核心指标之一，通常用 QPS（Queries Per Second，每秒处理请求数） 或 tokens/sec（每秒生成 token 数） 来量化。

一、吞吐率的直观理解

可以用 “工厂流水线” 类比：

低吞吐：流水线一次只能处理 1 个订单，做完一个再做下一个，单位时间产量低；
高吞吐：流水线支持并行处理多个订单，还能动态插入新订单，单位时间产量大幅提升。

对应大模型推理：

低吞吐场景：传统静态批处理，必须等一个批次的所有请求都生成完，才能处理下一批，中间 GPU 会有空闲时间；
高吞吐场景：采用 连续批处理（Continuous Batching，vLLM/TGI 等工具的核心特性），GPU 几乎无空闲，新请求可以随时插入到正在处理的批次中，最大化计算资源利用率。

二、高吞吐的核心价值

提升服务承载能力：高吞吐意味着服务能同时支撑更多用户的并发请求，比如高吞吐的 API 服务每秒能处理 100 个请求，而低吞吐服务可能只能处理 10 个，前者更适合面向海量用户的生产场景。
降低单位计算成本：相同硬件资源下，高吞吐能处理更多请求，相当于每个请求的平均 GPU 成本更低。这对商业化的大模型服务至关重要。

三、影响吞吐率的关键因素

1.推理引擎的调度策略

这是最核心的因素。连续批处理 是实现高吞吐的关键技术（vLLM、TGI 均支持），相比传统静态批处理，能将吞吐率提升 5~10 倍。

2.显存利用率

大模型推理的瓶颈主要在显存（而非算力）。像 vLLM 的 PagedAttention 技术，通过分页管理 KV 缓存，减少显存碎片，让 GPU 能同时加载更多请求的缓存数据，直接提升吞吐率。

3.模型量化精度

模型量化（如 FP16→INT8→INT4）能大幅降低显存占用，让 GPU 一次能处理更多请求，从而提升吞吐率（代价是可能损失少量精度）。

4.硬件配置

GPU 显存越大：能同时处理的请求越多，吞吐率越高；
GPU 算力越强：token 生成速度越快，单位时间内完成的请求数越多。

四、吞吐率 vs 延迟（容易混淆的两个指标）

很多人会把吞吐率和延迟搞混，两者是权衡关系，不是正相关：

指标	定义	目标场景
吞吐率	单位时间处理的请求数 /token 数	高并发场景（如 API 服务）
延迟	单个请求从发出到返回结果的总耗时	实时对话场景（如聊天机器人）