1. 平均 prefill ≥ 1000 tokens/s  
• 是什么  
  – prefill:在 LLM 推理阶段,把用户已经输入的全部 prompt(包括系统提示、对话历史等)一次性并行计算完,得到 Key/Value 缓存的耗时。单位是 tokens/s。  
• 为什么重要  
  – 决定“用户敲完回车后到底要等多久才能看到第一个 token”。prefill 越快,首 token 延迟越短,体验越像“秒回”。  
• 怎么用 / 举例  
  – 场景:客服机器人一次收到 2 000 token 的系统指令 + 对话历史。  
  – 计算:prefill 耗时 = 2 000 tokens ÷ 1 000 tokens/s = 2 s。  
  – 如果低于 1 000 tokens/s(比如只有 500),同样 2 000 token 就要 4 s,用户就会觉得“卡”。  


2. 1000 > 平均 prefill ≥ 500 tokens/s  
• 含义:中等水平,可以应付日常 500-1 000 token 的 prompt,但超长 prompt 会明显变慢。  
• 举例:  
  – 办公 Copilot 场景:用户让模型总结 8 000 token 长文。  
  – 500 tokens/s → 8 000 ÷ 500 = 16 s,基本不可接受。  
  – 因此需要把长文分段或用更高速的硬件。  


3. 平均 prefill < 500 tokens/s  
• 含义:明显瓶颈,只适合极短 prompt(< 100 token)。  
• 举例:手机端离线小模型,算力只有 CPU,prefill 200 tokens/s;用户问“今天天气如何?”(10 token)→ 0.05 s,感知不到延迟,但一旦贴入 1 000 token 代码就卡死。  
4. 平均 decode ≥ 30 tokens/s  
• 是什么  
  – decode:生成阶段,每次模型自回归地产生 1 个新 token(中文≈0.7 个汉字)。decode 速度就是模型“打字”的帧率。  
• 为什么重要  
  – 30 tokens/s ≈ 20 汉字/s,人眼阅读刚好“跟得上”。低于 20 tokens/s 就会看到逐字蹦字,体验卡顿。  
• 举例:  
  – 在线写作助手,目标 300 token 的回答。30 tokens/s → 10 s 输出完毕;如果只有 15 tokens/s → 20 s,用户会以为“死机”。  
5. 30 > 平均 decode ≥ 20 tokens/s  
• 含义:可接受,但长回答(> 300 token)需要 15-20 s,用户感知“稍慢”。  
• 举例:  
  – 智能音箱,回答 150 token;20 tokens/s → 7.5 s。用户通过语音听,感官延迟还行。  


6. 平均 decode < 20 tokens/s  
• 含义:体验明显卡顿,只适合后台批处理或离线场景。  
• 举例:  
  – 用 7B 模型在低端 CPU 做翻译,decode 12 tokens/s;翻译 400 token 段落需要 30 s,只能离线跑,不适合网页实时预览。  
7. 首词响应时延 < 2 s  
• 是什么  
  – 从用户“敲回车”到屏幕上出现第 1 个 token 的端到端耗时(包含网络往返 + prefill 计算)。  
• 为什么重要  
  – 人类心理学:2 s 是“可接受等待”阈值。  
• 举例:  
  – 网页聊天机器人,网络往返 200 ms,prefill 1 000 token ÷ 1 500 tokens/s ≈ 670 ms,总延迟 < 1 s,体验“秒回”。  
8. 2 s ≤ 首词响应时延 < 3 s  
• 含义:略慢,但仍在“可忍耐”区间。  
• 举例:  
  – 手机端离线 7B 模型,首 token 计算 2.8 s;用户问“写一段广告文案”,感觉“顿一下”,但仍愿意等。  


9. 首词响应时延 ≥ 3 s  
• 含义:用户极易流失。  
• 举例:  
  – 在旧款 GPU 上跑 33B 模型,首 token 5 s;用户刷新页面或关掉标签页。  


10. 输出平均速度 ≥ 25 字/s  
• 是什么  
  – 把 decode 的 tokens/s 按中文平均 0.7 字/token 换算,直接给用户“汉字/秒”体感。  
• 举例:  
  – 30 tokens/s × 0.7 ≈ 21 字/s,刚好达不到 25 字/s 指标,需要优化到 36 tokens/s(≈ 25 字/s),阅读体验才顺滑。  
综合使用示例  
假设你在设计一个“长文摘要”产品:  
1. 典型输入 4 000 token,要求首词 < 2 s。  
2. 计算:prefill 需 ≥ 4 000 ÷ 2 = 2 000 tokens/s。  
3. 若硬件只能做到 1 000 tokens/s,则必须做“分段并行”或“提前缓存 KV”才能达标。  
4. 输出 600 token,目标 25 字/s → 需要 decode ≥ 36 tokens/s。  
5. 如果测得 decode 只有 25 tokens/s,就要考虑量化 int4、投机解码(speculative decoding)或显存带宽更大的卡。  

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐