大模型prefill，decode，首词响应时延，输出平均速度

网页聊天机器人，网络往返 200 ms，prefill 1 000 token ÷ 1 500 tokens/s ≈ 670 ms，总延迟 < 1 s，体验“秒回”。– 30 tokens/s × 0.7 ≈ 21 字/s，刚好达不到 25 字/s 指标，需要优化到 36 tokens/s（≈ 25 字/s），阅读体验才顺滑。– 如果低于 1 000 tokens/s（比如只有 500），同样 2

小米，罗冰

1696人浏览 · 2025-08-24 13:56:55

小米，罗冰 · 2025-08-24 13:56:55 发布

1. 平均 prefill ≥ 1000 tokens/s
• 是什么
– prefill：在 LLM 推理阶段，把用户已经输入的全部 prompt（包括系统提示、对话历史等）一次性并行计算完，得到 Key/Value 缓存的耗时。单位是 tokens/s。
• 为什么重要
– 决定“用户敲完回车后到底要等多久才能看到第一个 token”。prefill 越快，首 token 延迟越短，体验越像“秒回”。
• 怎么用 / 举例
– 场景：客服机器人一次收到 2 000 token 的系统指令 + 对话历史。
– 计算：prefill 耗时 = 2 000 tokens ÷ 1 000 tokens/s = 2 s。
– 如果低于 1 000 tokens/s（比如只有 500），同样 2 000 token 就要 4 s，用户就会觉得“卡”。

2. 1000 > 平均 prefill ≥ 500 tokens/s
• 含义：中等水平，可以应付日常 500-1 000 token 的 prompt，但超长 prompt 会明显变慢。
• 举例：
– 办公 Copilot 场景：用户让模型总结 8 000 token 长文。
– 500 tokens/s → 8 000 ÷ 500 = 16 s，基本不可接受。
– 因此需要把长文分段或用更高速的硬件。

3. 平均 prefill < 500 tokens/s
• 含义：明显瓶颈，只适合极短 prompt（< 100 token）。
• 举例：手机端离线小模型，算力只有 CPU，prefill 200 tokens/s；用户问“今天天气如何？”（10 token）→ 0.05 s，感知不到延迟，但一旦贴入 1 000 token 代码就卡死。
4. 平均 decode ≥ 30 tokens/s
• 是什么
– decode：生成阶段，每次模型自回归地产生 1 个新 token（中文≈0.7 个汉字）。decode 速度就是模型“打字”的帧率。
• 为什么重要
– 30 tokens/s ≈ 20 汉字/s，人眼阅读刚好“跟得上”。低于 20 tokens/s 就会看到逐字蹦字，体验卡顿。
• 举例：
– 在线写作助手，目标 300 token 的回答。30 tokens/s → 10 s 输出完毕；如果只有 15 tokens/s → 20 s，用户会以为“死机”。
5. 30 > 平均 decode ≥ 20 tokens/s
• 含义：可接受，但长回答（> 300 token）需要 15-20 s，用户感知“稍慢”。
• 举例：
– 智能音箱，回答 150 token；20 tokens/s → 7.5 s。用户通过语音听，感官延迟还行。

6. 平均 decode < 20 tokens/s
• 含义：体验明显卡顿，只适合后台批处理或离线场景。
• 举例：
– 用 7B 模型在低端 CPU 做翻译，decode 12 tokens/s；翻译 400 token 段落需要 30 s，只能离线跑，不适合网页实时预览。
7. 首词响应时延 < 2 s
• 是什么
– 从用户“敲回车”到屏幕上出现第 1 个 token 的端到端耗时（包含网络往返 + prefill 计算）。
• 为什么重要
– 人类心理学：2 s 是“可接受等待”阈值。
• 举例：
– 网页聊天机器人，网络往返 200 ms，prefill 1 000 token ÷ 1 500 tokens/s ≈ 670 ms，总延迟 < 1 s，体验“秒回”。
8. 2 s ≤ 首词响应时延 < 3 s
• 含义：略慢，但仍在“可忍耐”区间。
• 举例：
– 手机端离线 7B 模型，首 token 计算 2.8 s；用户问“写一段广告文案”，感觉“顿一下”，但仍愿意等。

9. 首词响应时延 ≥ 3 s
• 含义：用户极易流失。
• 举例：
– 在旧款 GPU 上跑 33B 模型，首 token 5 s；用户刷新页面或关掉标签页。

10. 输出平均速度 ≥ 25 字/s
• 是什么
– 把 decode 的 tokens/s 按中文平均 0.7 字/token 换算，直接给用户“汉字/秒”体感。
• 举例：
– 30 tokens/s × 0.7 ≈ 21 字/s，刚好达不到 25 字/s 指标，需要优化到 36 tokens/s（≈ 25 字/s），阅读体验才顺滑。
综合使用示例
假设你在设计一个“长文摘要”产品：
1. 典型输入 4 000 token，要求首词 < 2 s。
2. 计算：prefill 需 ≥ 4 000 ÷ 2 = 2 000 tokens/s。
3. 若硬件只能做到 1 000 tokens/s，则必须做“分段并行”或“提前缓存 KV”才能达标。
4. 输出 600 token，目标 25 字/s → 需要 decode ≥ 36 tokens/s。
5. 如果测得 decode 只有 25 tokens/s，就要考虑量化 int4、投机解码（speculative decoding）或显存带宽更大的卡。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI创新大赛：开发实战全攻略

《创意AI应用开发大赛指南》摘要：大赛聚焦AI技术创新与场景结合，面向开发者、学生等群体，涵盖生成式AI、多模态模型等技术方向。指南详细介绍了从创意构思到技术实现的完整流程，包括框架选型、数据准备等关键环节，并提供了智能写作助手等实战案例参考。评分标准强调创新性、实用性和技术深度，同时推荐了开源模型库等参赛资源。针对数据不足等常见问题给出解决方案，展望了AI应用个性化、低代码化的发展趋势。

2048 AI社区

JavaScript性能优化20个实战技巧

本文系统介绍了JavaScript性能优化的关键技术，主要包括：1）代码结构优化，通过模块化设计、减少DOM操作和优化循环提升执行效率；2）内存管理，采用弱引用和及时释放对象避免内存泄漏；3）异步编程优化，使用Promise/async/await简化代码结构；4）渲染性能提升，利用requestAnimationFrame和GPU加速；5）网络请求优化，通过合并请求和缓存策略降低延迟。同时介绍了