1000道算法工程师面试题（大模型）—— 第32部分

摘要本文聚焦生产环境中大模型推理的性能优化，涵盖vLLM、TensorRT等工具的调优实践。针对KV Cache显存利用率，建议设置为0.9-0.95；对吞吐量问题，提出降低max_num_seqs以平衡延迟与吞吐；处理突发流量时采用"先排队后拒绝"策略，设置5-10秒超时。量化方面指出权重显存可降为1/4但KV Cache仍为FP16，推荐FP8 KV Cache以获得1.

快撑死的鱼

241人浏览 · 2025-11-22 16:57:31

快撑死的鱼 · 2025-11-22 16:57:31 发布

这是第十一部分的参考答案。这部分内容非常“硬核”，专注于生产环境下的性能压榨。如果你能答出这些具体的参数调整和排查思路，面试官会认为你是一个不仅懂原理，而且真的扛过线上流量的专家。

第十一部分：推理性能极致调优 (vLLM/TensorRT/参数微操) (201-225)

201. 在 vLLM 部署时，`gpu_memory_utilization` 这个参数你通常设多少？设得太高会导致 OOM，设得太低会浪费 KV Cache 空间，你的经验值是多少？

答案：

经验值：0.9 到 0.95。
默认值： vLLM 默认是 0.9（即占用 90% 显存）。
调优逻辑：
- vLLM 会预先申请这部分显存用于 KV Cache。
- 设太高 (0.98+)： 如果模型运行中激活值（Activations）或者 PyTorch 的临时 Tensor 突然变大（比如输入特别长），预留的 2% 显存不够用，就会直接 OOM Crash。
- 设太低 (0.8)： KV Cache 的 Block 数量变少，支持的最大并发数（Max Concurrency）直接下降，浪费了显卡昂贵的 HBM。
建议： 先设 0.9 跑压测，如果稳定不崩，慢慢加到 0.95。如果是 PyTorch 后端（非 Triton），建议保守点。

202. 遇到过“首字延迟”（TTFT）达标，但“每秒生成 Token 数”（TPOT）太慢的情况吗？这种吞吐量上不去的问题，你是怎么调整 Batch 策略的？

答案：

现象： 典型的 Compute-bound 或者 Bandwidth-bound 导致的排队延迟。
- TTFT 快： 说明 Prefill 阶段（并发计算）没问题，资源够。
- TPOT 慢： 说明 Decode 阶段由于 Batch Size 过大，导致单个 Step 的计算/访存时间变长。
调整策略：
- 降低 max_num_seqs： vLLM 默认可能是 256。如果并发满了，每一轮 decode 都要处理 256 个请求，显存带宽瓶颈导致每个 Token 生成变慢。尝试降到 64 或 128，找到 Latency 和 Throughput 的平衡点。
- 检查 TP 设置： 如果模型很大，增加 TP（Tensor Parallel）路数，利用多卡带宽。

203. 你的服务在并发请求突然激增（Spike）的时候，是直接拒绝请求，还是让它们在队列里排队？排队超时时间（Timeout）设了多少？

答案：

策略： 先排队，后拒绝（Fast Fail）。
队列机制： vLLM 内部自带 Waiting Queue。当 Running Queue 满了，新请求进入 Waiting。
超时设置：
- Client Timeout： 通常设为 60s - 120s。
- Server Timeout： 如果请求在 Waiting Queue 里排队超过 5-10秒 还没轮到调度，我通常会直接返回 429 Too Many Requests。
- 理由： 如果排队都排了 10 秒，等轮到它跑完可能早都超时了，不如早点拒绝，让 Client 去重试或降级，保护后端不被积压的请求压垮（雪崩效应）。

204. 讲一个你做过的具体的 vLLM 性能优化案例，比如调整了 `max_num_seqs` 或 `max_num_batched_tokens` 后，吞吐量提升了多少？

答案：

案例： Llama-3-8B 部署在 A100 上。
初始： 默认配置。压测 QPS 较高时，Prefill 阶段非常卡，因为新进来的长 Prompt 抢占了计算资源，导致正在 Decode 的请求卡顿（Inter-token latency 抖动）。
调整：
1. max_num_seqs： 从 256 降到 128（保 Latency）。
2. max_num_batched_tokens： 设为 8192（限制单次迭代处理的最大 Token 数，启用 Chunked Prefill）。
效果： 虽然峰值并发数降了，但 P99 Latency 降低了 40%，且吞吐量（Token/s）整体稳定提升了 15%（因为减少了 Cache Miss 和调度开销）。

205. 在使用量化模型（比如 GPTQ-Int4）时，你有没有对比过它和 FP16 在并发下的真实显存占用差距？是真的能省一半，还是有 Overhead？

答案：

真实占用： 权重省了，但 KV Cache 没省。
分析：
- 权重 (Weights)： Int4 确实是 FP16 的 1/4。70B 模型从 140G 降到 35G，这是一个巨大的优势。
- 激活值 (Activations)： 推理时需要反量化回 FP16 计算，这部分显存开销没变，甚至因为 Kernel 实现问题可能有少量 Overhead。
- KV Cache： 除非开启 KV Cache 量化（如 FP8/Int8 KV），否则 KV Cache 依然是 FP16。
结论： 量化的最大意义在于腾出了权重的显存给 KV Cache，从而能把 Batch Size 开得更大（比如从 4 提到 32），这才是吞吐量翻倍的根本原因。

206. 如果业务要求长文本（32k context），vLLM 里的 `block_size` 你会选 16 还是 32？这东西对显存碎片化有实际影响吗？

答案：

推荐：16（默认值）。
影响：
- 显存碎片： Block 越大，尾部浪费（Internal Fragmentation）越严重。比如一个请求最后只生成了 1 个 Token，但也占了一个 32 的 Block，浪费 31 个 Token 的空间。
- 寻址开销： Block 越小，页表（Page Table）越大，Kernel 里的寻址计算稍微慢一点点。
长文本场景： 32k context 下，页表确实会变大，但相比于显存的珍贵，减少碎片化更重要。除非 Profiling 发现 Kernel Launchbound 在寻址上，否则保持 16 是最稳妥的。

207. 很多时候 Python 的 HTTP 框架（如 FastAPI）是瓶颈，而不是 GPU。你有做过把 API Server 从 uvicorn 换成 rust 写的 server 或者做过异步优化吗？

答案：

瓶颈确认： 当 GPU 利用率不高，但 QPS 上不去，且 CPU 单核 100% 时，通常是 Python GIL 和 HTTP 解析锅。
优化手段：
1. 异步 (Async)： 必须确保 generate 函数是 async 的，并且使用 uvloop 替代默认的 asyncio loop。
2. Rust 前端： 我们尝试过用 TGI (Text Generation Inference) 的 Frontend（Rust编写）或者 vLLM 的 API Server (Ray Serve 模式)。Rust 处理 HTTP 请求、鉴权、分词的速度比 FastAPI 快得多，能显著降低 Overhead，特别是对流式输出的高频 Packet 发送场景。

208. 你们的模型服务支持多大的并发（Concurrency）？压测的时候，QPS 到多少开始出现明显的 Latency 抖动？

答案：

数据参考（单卡 A100, 7B 模型）：
- 安全并发： 50-60 左右。
- 极限并发： 100+（此时 KV Cache 可能会满，触发 Swap 或 Recompute）。
抖动点： 当 QPS 超过 30 时，TTFT 开始变差（排队了）。当并发超过 80 时，TPOT 开始变慢（带宽瓶颈）。我们通常把 Autoscaling 的阈值设在并发 40-50。

209. 在 TensorRT-LLM 里，构建 Engine 的时候需要指定 `max_batch_size`，如果线上流量超过这个值会发生什么？你会预留多少 buffer？

答案：

后果： 超过 max_batch_size 的请求无法进入 Engine。
- 如果是 Triton Server，它会在前端队列里排队。
- 如果是裸调 C++ API，可能会报错或 Crash（取决于实现）。
Buffer 策略：
- 构建 Engine 时，我会设置 max_batch_size = 预期峰值 * 1.2。
- 注意：TRT-LLM 会根据这个值预分配显存。设得太大（比如 1024）会导致初始化时就占满显存，留给 KV Cache 的空间反而变小，得不偿失。

210. 关于 Continuous Batching，有没有遇到过某个特别长的请求“卡住”了整个 Batch 的情况？怎么设置 Early Stopping 或者截断策略？

答案：

卡顿现象： Continuous Batching 虽然允许短请求先走、新请求插入，但如果有一个请求要生成 4096 个 Token，它会一直占着一个 Slot，导致显存无法完全释放，影响整体调度效率。
策略：
1. max_model_len： 强制截断。线上服务严禁无限生成，必须设置上限（如 4096）。
2. stop_token_ids： 确保模型能正确预测 <EOS>。
3. 超时强杀： 在应用层设置逻辑，如果一个 Request 生成时间超过 2 分钟，强制 Cancel。

211. 如果显存非常吃紧，你会优先牺牲 `kv_cache_dtype`（比如用 fp8）还是减少并发度？有没有做过 KV Cache 量化的实测对比？

答案：

优先牺牲 kv_cache_dtype (开启 FP8 Cache)。
理由： 减少并发度直接杀死了吞吐量（Throughput），这是不可接受的。
实测：
- 在 Llama 3 上，开启 FP8 KV Cache。
- 精度： 大海捞针（Needle In A Haystack）测试准确率几乎无损（< 1% 差异）。
- 收益： KV Cache 显存占用减半，支持的 Max Batch Size 翻倍，吞吐量提升接近 1.8 倍。这是性价比极高的优化。

212. 在多卡推理（Tensor Parallel）时，卡间通信（NCCL）带宽吃满了怎么办？有没有尝试过减少 TP 度数，改用 Pipeline Parallel？

答案：

现象： 在 PCIe 机器（无 NVLink）上跑 TP=4，推理极其慢。
解决：
- 减少 TP： 尽量保证 TP 在单机内且有 NVLink 的卡之间做。比如单机 8 卡，做 TP=8 是 OK 的。
- 改用 PP (Pipeline Parallel)： 如果必须跨机或跨 PCIe Switch，切 PP。PP 的通信量（仅传边界 Hidden States）远小于 TP（传全量梯度/激活），对带宽不敏感。
- 代价： PP 会引入 Pipeline Bubble，延迟会增加，但总比 TP 卡死要好。

213. 为了降低延迟，你有没有试过“推测采样”（Speculative Decoding）？选用的小模型（Draft Model）是怎么选的？实际加速比能到 1.5 倍吗？

答案：

Draft Model 选择： 必须与 Target Model 共享 Tokenizer，且架构相似。比如 Target 是 Llama-2-70B，Draft 选 Llama-2-7B（或专门蒸馏的 68M 小模型）。
加速比：
- 英文/代码简单补全： 能达到 1.5x - 2.0x。
- 中文/复杂逻辑推理： 效果一般，有时甚至 < 1.0x。因为小模型猜不对，大模型一直 Reject，反而多支出了 Draft 模型的计算开销。

214. 你的推理服务是只跑一个 Model Instance 吗？如果显存还有富余，会不会在一个 GPU 上起两个 Worker 进程？

答案：

LLM 场景：通常只跑一个 Instance。
原因：
- LLM 是 Memory-bound 的，一个 Instance 就能把 HBM 带宽吃满。
- 起两个 Worker 并不会增加带宽，反而因为 Context 切换和资源争抢导致性能下降。
- 显存“富余”是假象，富余的显存应该全部给 KV Cache 用来提升 Batch Size。
例外： 除非是极其小的 Embedding 模型或者 BERT 类模型，才会在单卡上跑 MPS 多进程。

215. 遇到过 Tokenizer 在 CPU 上处理太慢，拖累了整体响应时间的情况吗？你是怎么优化的？（比如换 C++ 实现的 Tokenizer）

答案：

遇到过。 特别是 HuggingFace 的 slow tokenizer（纯 Python 实现）。
优化：
1. 必用 Fast Tokenizer： 确保加载时 use_fast=True，底层调用 tokenizers (Rust) 库。
2. 分离部署： 将 Tokenizer 剥离成一个独立的微服务（CPU Cluster），做完 Tokenization 后直接传 Input_IDs 给 GPU 推理服务，减少 GPU 节点的 CPU 压力。

216. 生产环境的请求长度分布通常是不均匀的，你怎么根据实际的 Length Distribution 来调整 vLLM 的 Slot 分配？

答案：

观测： 发现 80% 的请求长度在 1k 以内，但有 1% 的请求长达 30k。
策略： 分桶部署 (Bucket Deployment)。
- Instance A (Short): 配置 max_model_len=2048，gpu_memory_utilization=0.8（给 Batch 留更多空间），专门处理短请求，吞吐极高。
- Instance B (Long): 配置 max_model_len=32k，专门处理长文档分析，并发度设低一点。
- 网关路由： API Gateway 根据 Input Length 转发到不同实例。

217. 假如并发很高，GPU 利用率一直维持在 95% 以上，显存也没爆，但响应就是慢，这通常是 Compute-bound 还是 Memory-bound？怎么判断？

答案：

判断： 看 Batch Size。
- Compute-bound： 如果此时 Batch Size 很大（比如 128+），GPU 算力（SM 利用率）打满了。此时是算不过来。优化方向是量化或换 H100。
- Memory-bound： 如果 Batch Size 很小，但 GPU 利用率高（可能是 Kernel Launch 开销或无效等待），或者 nvidia-smi 显示 Memory-Util 高但 SM-Util 低。对于 LLM Decode 阶段，绝大多数情况是 Memory-bound（卡在 HBM 带宽上）。

218. 在做流式输出（Streaming）时，前端反馈“字是一顿一顿出来的，不丝滑”，这通常是后端 Buffer 积压问题还是网络问题？你怎么排查？

答案：

排查：
1. 后端 Detokenizer： 检查是不是每生成一个 Token 就 yield 一次？还是攒了几个才 yield？（有时候为了处理 unicode 中文乱码，需要攒字节）。
2. Nginx/LB Buffer： 重点检查 Nginx 的 proxy_buffering。如果开启了 Buffer，Nginx 会攒够 4k 数据才发给客户端，导致“卡顿-狂吐”现象。必须 关闭 buffering (proxy_buffering off;)。
3. TCP Nagle 算法： 确保 socket 开启 TCP_NODELAY。

219. 你们有用过 NVIDIA Triton Inference Server 吗？相比于直接用 Python 脚本起服务，它在 Dynamic Batching 上有什么具体的性能优势？

答案：

优势：
1. 下沉到 C++： Triton 的 Dynamic Batching 是在 C++ 层做的，比 Python 循环拼 Batch 效率高极多。
2. 独立队列： Triton 维护了独立的 Request Queue，可以配置精细的 Priority 和 Timeout 策略。
3. Decoupled Mode： 支持 gRPC 流式解耦，一个请求进去，多个响应出来，非常适合 LLM Streaming。
缺点： 配置复杂（config.pbtxt），调试难。但生产环境还是建议用。

220. 如果要部署一个 70B 的模型，你是选择两张 A100 (80G) 做 TP=2，还是四张 A10 (24G) 做 TP=4？从成本和延迟角度你怎么选？

答案：

延迟 (Latency)： 选 A100 (TP=2)。
- A100 有 NVLink，TP 通信极快。
- A10 通常走 PCIe，TP=4 意味着每一层都要跨卡 PCIe 通信，延迟会爆炸（可能慢 3-5 倍）。
成本 (Cost)： A10 方案确实便宜，但性能太差，基本不可用于在线交互服务。
折中： 如果必须用 A10，不要做 TP，改做 PP (Pipeline Parallel) 或者 Layer-wise Inference，牺牲延迟换取能跑起来（适合离线批处理）。

221. 在推理阶段，Prompt 的 Cache 命中率（Prefix Caching）你们有监控吗？对于 System Prompt 很长的场景，开启 Cache 后首字延迟降了多少？

答案：

监控： vLLM 提供了 metrics 接口，监控 vllm:request_prefix_cache_hit_rate。
效果：
- 场景：RAG 应用，System Prompt + Documents 长度约 2000 Token。
- 开启 enable_prefix_caching=True 后，如果用户连续问同一个文档：
- TTFT (首字延迟)： 从 500ms 降到了 20ms（几乎瞬开）。因为不需要重新计算那 2000 Token 的 KV Cache，直接从 Block Manager 里指过去就行。

222. 遇到过因为 Padding 太多导致的计算浪费吗？虽然 vLLM 解决了这个问题，但在数据预处理阶段你们还做不做 Padding？

答案：

vLLM： 使用 PagedAttention，物理上不需要 Padding。
预处理：
- 如果用 vLLM，我们在发送请求时，直接发原始长度的 input_ids，不做 Padding。
- 如果是老式的 FasterTransformer 或静态图引擎，才需要 Pad 到最大长度。现在的最佳实践是 Remove Padding。

223. 你的 Docker 容器里，CPU 核心数分配少了会不会影响 GPU 的推理速度？调度器线程一般需要几个核？

答案：

会影响！严重影响！
原因：
1. GPU 驱动交互： CPU 需要不断给 GPU 发射 Kernel 指令。
2. 数据搬运： DataLoader 和 Tokenizer 需要 CPU。
3. NCCL 通信： 多卡同步需要 CPU 参与 polling。
建议： 即使是 GPU 任务，至少分配 4-8 个 CPU 核心。如果只给 1 核，CPU 会满载，导致 GPU 经常空转等待 CPU 指令（GPU Starvation）。

224. 怎么处理“不仅要快，还要稳”？如果要求 P99 延迟必须在 2秒内，你会怎么牺牲吞吐量来保延迟？

答案：

SLA 优先策略：
1. 硬限 Concurrency： 压测找到 P99=2s 时的最大并发数（比如 30），在网关层限流，超过 30 直接排队或拒绝。
2. 限制 Batch Size： 调小 max_num_seqs，确保每一轮 Decode 的时间极短。
3. 抢占 (Preemption)： 如果检测到某个请求生成的 Token 还没完但总时间快超了，vLLM 会自动将其 Swap out 或由业务层截断。
- 牺牲： 显卡利用率可能只有 50%，吞吐量减半，但保证了只要进来的请求都能快出。

225. 你们做没做过算子融合（Operator Fusion）？比如把 LayerNorm 和 Activation 融合成一个 Kernel，这对推理速度有多大提升？

答案：

做过（或使用现成的）。
原理： GPU 最怕内存读写。x = LayerNorm(x); x = Gelu(x) 需要读写 HBM 两次。融合后只需要读一次 x，算完写回，大大减少 HBM 带宽占用。
工具： 我们主要使用 FlashAttention 里的 Fused Kernels (如 FusedRMSNorm, FusedRotaryEmbedding) 和 OpenAI Triton 写的算子。
提升： 在小 Batch Size 下不明显，但在大 Batch 或长序列下，能带来 20%-30% 的端到端速度提升。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

远程质控不再难：测试团队的云端协作实战手册

2048 AI社区

保姆级教程！手把手教你用LCEL重构LangChain应用，体验丝滑的异步与流式。

2048 AI社区

免费写论文不用愁！6个AI工具大推荐！

2048 AI社区

所有评论(0)

查看更多评论

快撑死的鱼

@qq_38334677

已为社区贡献73条内容

1000道算法工程师面试题（大模型）—— 第32部分

快撑死的鱼

第十一部分：推理性能极致调优 (vLLM/TensorRT/参数微操) (201-225)

201. 在 vLLM 部署时，gpu_memory_utilization 这个参数你通常设多少？设得太高会导致 OOM，设得太低会浪费 KV Cache 空间，你的经验值是多少？

202. 遇到过“首字延迟”（TTFT）达标，但“每秒生成 Token 数”（TPOT）太慢的情况吗？这种吞吐量上不去的问题，你是怎么调整 Batch 策略的？

203. 你的服务在并发请求突然激增（Spike）的时候，是直接拒绝请求，还是让它们在队列里排队？排队超时时间（Timeout）设了多少？

204. 讲一个你做过的具体的 vLLM 性能优化案例，比如调整了 max_num_seqs 或 max_num_batched_tokens 后，吞吐量提升了多少？

205. 在使用量化模型（比如 GPTQ-Int4）时，你有没有对比过它和 FP16 在并发下的真实显存占用差距？是真的能省一半，还是有 Overhead？

206. 如果业务要求长文本（32k context），vLLM 里的 block_size 你会选 16 还是 32？这东西对显存碎片化有实际影响吗？

207. 很多时候 Python 的 HTTP 框架（如 FastAPI）是瓶颈，而不是 GPU。你有做过把 API Server 从 uvicorn 换成 rust 写的 server 或者做过异步优化吗？

208. 你们的模型服务支持多大的并发（Concurrency）？压测的时候，QPS 到多少开始出现明显的 Latency 抖动？

209. 在 TensorRT-LLM 里，构建 Engine 的时候需要指定 max_batch_size，如果线上流量超过这个值会发生什么？你会预留多少 buffer？

210. 关于 Continuous Batching，有没有遇到过某个特别长的请求“卡住”了整个 Batch 的情况？怎么设置 Early Stopping 或者截断策略？

211. 如果显存非常吃紧，你会优先牺牲 kv_cache_dtype（比如用 fp8）还是减少并发度？有没有做过 KV Cache 量化的实测对比？

212. 在多卡推理（Tensor Parallel）时，卡间通信（NCCL）带宽吃满了怎么办？有没有尝试过减少 TP 度数，改用 Pipeline Parallel？

213. 为了降低延迟，你有没有试过“推测采样”（Speculative Decoding）？选用的小模型（Draft Model）是怎么选的？实际加速比能到 1.5 倍吗？

214. 你的推理服务是只跑一个 Model Instance 吗？如果显存还有富余，会不会在一个 GPU 上起两个 Worker 进程？

215. 遇到过 Tokenizer 在 CPU 上处理太慢，拖累了整体响应时间的情况吗？你是怎么优化的？（比如换 C++ 实现的 Tokenizer）

216. 生产环境的请求长度分布通常是不均匀的，你怎么根据实际的 Length Distribution 来调整 vLLM 的 Slot 分配？

217. 假如并发很高，GPU 利用率一直维持在 95% 以上，显存也没爆，但响应就是慢，这通常是 Compute-bound 还是 Memory-bound？怎么判断？

218. 在做流式输出（Streaming）时，前端反馈“字是一顿一顿出来的，不丝滑”，这通常是后端 Buffer 积压问题还是网络问题？你怎么排查？

219. 你们有用过 NVIDIA Triton Inference Server 吗？相比于直接用 Python 脚本起服务，它在 Dynamic Batching 上有什么具体的性能优势？

220. 如果要部署一个 70B 的模型，你是选择两张 A100 (80G) 做 TP=2，还是四张 A10 (24G) 做 TP=4？从成本和延迟角度你怎么选？

221. 在推理阶段，Prompt 的 Cache 命中率（Prefix Caching）你们有监控吗？对于 System Prompt 很长的场景，开启 Cache 后首字延迟降了多少？

222. 遇到过因为 Padding 太多导致的计算浪费吗？虽然 vLLM 解决了这个问题，但在数据预处理阶段你们还做不做 Padding？

223. 你的 Docker 容器里，CPU 核心数分配少了会不会影响 GPU 的推理速度？调度器线程一般需要几个核？

224. 怎么处理“不仅要快，还要稳”？如果要求 P99 延迟必须在 2秒内，你会怎么牺牲吞吐量来保延迟？

225. 你们做没做过算子融合（Operator Fusion）？比如把 LayerNorm 和 Activation 融合成一个 Kernel，这对推理速度有多大提升？

所有评论(0)

快撑死的鱼

201. 在 vLLM 部署时，`gpu_memory_utilization` 这个参数你通常设多少？设得太高会导致 OOM，设得太低会浪费 KV Cache 空间，你的经验值是多少？

204. 讲一个你做过的具体的 vLLM 性能优化案例，比如调整了 `max_num_seqs` 或 `max_num_batched_tokens` 后，吞吐量提升了多少？

206. 如果业务要求长文本（32k context），vLLM 里的 `block_size` 你会选 16 还是 32？这东西对显存碎片化有实际影响吗？

209. 在 TensorRT-LLM 里，构建 Engine 的时候需要指定 `max_batch_size`，如果线上流量超过这个值会发生什么？你会预留多少 buffer？

211. 如果显存非常吃紧，你会优先牺牲 `kv_cache_dtype`（比如用 fp8）还是减少并发度？有没有做过 KV Cache 量化的实测对比？