一文搞懂LLM高吞吐
·
目录
在大模型部署和推理的语境中,高吞吐(High Throughput) 指的是单位时间内,模型能够处理的请求数量或生成的 token 总数越多,吞吐率就越高。它是衡量模型服务性能的核心指标之一,通常用 QPS(Queries Per Second,每秒处理请求数) 或 tokens/sec(每秒生成 token 数) 来量化。
一、吞吐率的直观理解
可以用 “工厂流水线” 类比:
- 低吞吐:流水线一次只能处理 1 个订单,做完一个再做下一个,单位时间产量低;
- 高吞吐:流水线支持并行处理多个订单,还能动态插入新订单,单位时间产量大幅提升。
对应大模型推理:
- 低吞吐场景:传统静态批处理,必须等一个批次的所有请求都生成完,才能处理下一批,中间 GPU 会有空闲时间;
- 高吞吐场景:采用 连续批处理(Continuous Batching,vLLM/TGI 等工具的核心特性),GPU 几乎无空闲,新请求可以随时插入到正在处理的批次中,最大化计算资源利用率。
二、高吞吐的核心价值
-
提升服务承载能力:高吞吐意味着服务能同时支撑更多用户的并发请求,比如高吞吐的 API 服务每秒能处理 100 个请求,而低吞吐服务可能只能处理 10 个,前者更适合面向海量用户的生产场景。
-
降低单位计算成本:相同硬件资源下,高吞吐能处理更多请求,相当于每个请求的平均 GPU 成本更低。这对商业化的大模型服务至关重要。
三、影响吞吐率的关键因素
1.推理引擎的调度策略
这是最核心的因素。连续批处理 是实现高吞吐的关键技术(vLLM、TGI 均支持),相比传统静态批处理,能将吞吐率提升 5~10 倍。
2.显存利用率
大模型推理的瓶颈主要在显存(而非算力)。像 vLLM 的 PagedAttention 技术,通过分页管理 KV 缓存,减少显存碎片,让 GPU 能同时加载更多请求的缓存数据,直接提升吞吐率。
3.模型量化精度
模型量化(如 FP16→INT8→INT4)能大幅降低显存占用,让 GPU 一次能处理更多请求,从而提升吞吐率(代价是可能损失少量精度)。
4.硬件配置
- GPU 显存越大:能同时处理的请求越多,吞吐率越高;
- GPU 算力越强:token 生成速度越快,单位时间内完成的请求数越多。
四、吞吐率 vs 延迟(容易混淆的两个指标)
很多人会把吞吐率和延迟搞混,两者是权衡关系,不是正相关:
| 指标 | 定义 | 目标场景 |
|---|---|---|
| 吞吐率 | 单位时间处理的请求数 /token 数 | 高并发场景(如 API 服务) |
| 延迟 | 单个请求从发出到返回结果的总耗时 | 实时对话场景(如聊天机器人) |
- 提升吞吐率的手段(如增大批次),可能会略微增加单个请求的延迟;
- 追求极低延迟(如小批次 / 单请求),则会牺牲吞吐率。
举个例子:
- vLLM 适合高吞吐场景:用大批次 + 连续批处理,每秒能处理大量请求,单请求延迟可能比 TensorRT-LLM 略高;
- TensorRT-LLM 适合低延迟场景:通过算子优化减少单请求计算时间,吞吐率则略低于 vLLM。
总结
高吞吐的本质是最大化硬件资源利用率,在单位时间内处理更多请求,核心依赖连续批处理、高效显存管理等技术。它是大模型商业化服务的核心性能指标,直接决定了服务的用户承载量和运营成本。
更多推荐



所有评论(0)