目录

一、吞吐率的直观理解

二、高吞吐的核心价值

三、影响吞吐率的关键因素

        1.推理引擎的调度策略

        2.显存利用率

        3.模型量化精度

        4.硬件配置

四、吞吐率 vs 延迟(容易混淆的两个指标)

总结


在大模型部署和推理的语境中,高吞吐(High Throughput) 指的是单位时间内,模型能够处理的请求数量或生成的 token 总数越多,吞吐率就越高。它是衡量模型服务性能的核心指标之一,通常用 QPS(Queries Per Second,每秒处理请求数) 或 tokens/sec(每秒生成 token 数) 来量化。

一、吞吐率的直观理解

可以用 “工厂流水线” 类比:

  • 低吞吐:流水线一次只能处理 1 个订单,做完一个再做下一个,单位时间产量低;
  • 高吞吐:流水线支持并行处理多个订单,还能动态插入新订单,单位时间产量大幅提升。

对应大模型推理:

  • 低吞吐场景:传统静态批处理,必须等一个批次的所有请求都生成完,才能处理下一批,中间 GPU 会有空闲时间;
  • 高吞吐场景:采用 连续批处理(Continuous Batching,vLLM/TGI 等工具的核心特性),GPU 几乎无空闲,新请求可以随时插入到正在处理的批次中,最大化计算资源利用率。

二、高吞吐的核心价值

  1. 提升服务承载能力:高吞吐意味着服务能同时支撑更多用户的并发请求,比如高吞吐的 API 服务每秒能处理 100 个请求,而低吞吐服务可能只能处理 10 个,前者更适合面向海量用户的生产场景。

  2. 降低单位计算成本:相同硬件资源下,高吞吐能处理更多请求,相当于每个请求的平均 GPU 成本更低。这对商业化的大模型服务至关重要。

三、影响吞吐率的关键因素

        1.推理引擎的调度策略

        这是最核心的因素。连续批处理 是实现高吞吐的关键技术(vLLM、TGI 均支持),相比传统静态批处理,能将吞吐率提升 5~10 倍。

        2.显存利用率

        大模型推理的瓶颈主要在显存(而非算力)。像 vLLM 的 PagedAttention 技术,通过分页管理 KV 缓存,减少显存碎片,让 GPU 能同时加载更多请求的缓存数据,直接提升吞吐率。

        3.模型量化精度

        模型量化(如 FP16→INT8→INT4)能大幅降低显存占用,让 GPU 一次能处理更多请求,从而提升吞吐率(代价是可能损失少量精度)。

        4.硬件配置
  • GPU 显存越大:能同时处理的请求越多,吞吐率越高;
  • GPU 算力越强:token 生成速度越快,单位时间内完成的请求数越多。

四、吞吐率 vs 延迟(容易混淆的两个指标)

很多人会把吞吐率延迟搞混,两者是权衡关系,不是正相关:

指标 定义 目标场景
吞吐率 单位时间处理的请求数 /token 数 高并发场景(如 API 服务)
延迟 单个请求从发出到返回结果的总耗时 实时对话场景(如聊天机器人)
  • 提升吞吐率的手段(如增大批次),可能会略微增加单个请求的延迟;
  • 追求极低延迟(如小批次 / 单请求),则会牺牲吞吐率。

举个例子:

  • vLLM 适合高吞吐场景:用大批次 + 连续批处理,每秒能处理大量请求,单请求延迟可能比 TensorRT-LLM 略高;
  • TensorRT-LLM 适合低延迟场景:通过算子优化减少单请求计算时间,吞吐率则略低于 vLLM。

总结

高吞吐的本质是最大化硬件资源利用率,在单位时间内处理更多请求,核心依赖连续批处理、高效显存管理等技术。它是大模型商业化服务的核心性能指标,直接决定了服务的用户承载量和运营成本。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐