6、【AI】【Agent】输入/输出 tokens

本文分析了AI模型生成token速度(tokens/s)与用户体验的关系，指出30-60 tokens/s是流畅交互的基准。文章对比了输入和输出token处理的差异：输入处理（prompt分词）可并行且快速（~1600 tokens/s），而输出生成必须串行且依赖上下文（典型100 tokens/s）。关键发现包括：1)输出速度是用户体验的决定因素；2)输出阶段计算量随上下文长度增加；3)用户更关

HIT_Weston

366人浏览 · 2026-03-03 20:13:38

HIT_Weston · 2026-03-03 20:13:38 发布

【声明】本博客所有内容均为个人业余时间创作，所述技术案例均来自公开开源项目（如Github，Apache基金会），不涉及任何企业机密或未公开技术，如有侵权请联系删除

背景

上篇 blog
【AI】【Agent】tokens生成速度
分析了参数量和 tokens/s 输出速度的关系，并提到其实际速度还受到模型架构，内存带宽，CPU 缓存命中率等因素的影响，所以不是严格线性，而是衰减更快，分析了在纯 CPU 推理下，瓶颈不在 CPU 算力，而在于内存带宽，而如果是 GPU 作计算主力的话，由于其显存带宽远远大于内存带宽，所以瓶颈会转移到模型能力上，下面继续分析

Agent

最后再给上篇 blog 作个总结：

参数量上升 → 每 token 计算量上升 → 内存搬运量上升 → tokens/s 输出速度下降

一份 tokens/s 生成速度和用户体验的参考如下

`tokens/s`	用户体验
< 10	卡顿，像在等待转圈
10~30	可用，但需耐心
30~60	流畅，接近人类思考节奏
> 60	⚡丝滑，感觉 AI 在抢答
> 100	🚀 飞一般的感觉，Phi-3 在好的 CPU 上可达到

可以看到，用户本地部署的模型，其生成的 tokens/s 的速度应尽量达到 30~60 tokens/s，才能有良好的体验

另外，在生成式任务中，上面一直提到的 tokens/s 指的是输出 token 的速度，而不是输入处理速度，下面来对比下输入 token 和输出 token 的区别

类型	说明	负责模块	是否影响 `tokens/s`
输入 `tokens`	发给模型的 prompt	tokenizer	不计入生成速度
输出 `token`	模型生成的回答	模型 + tokenizer	`tokens/s` 只测这个

这里的 prompt 直译为提示词

在这里插入图片描述

以 OpenCoder 为例，假设让 Agent 写代码，发送输入 prompt

用 Python 写一个快速排序函数

此时 prompt 会被拆成 8 个 input tokens：[用，Python，写，一，个，快速，排序，函数]，这一步很快，属于纯文本分词，而且不涉及模型推理，通常 < 10ms

接着模型会开始逐个生成输出 tokens，一个简易的模型内部循环如下

output_tokens = []
while not stop:
    # 每次调用模型，生成 1 个新 token
    next_token = model(input_tokens + output_tokens)
    output_tokens.append(next_token)
    print(tokenizer.decode(next_token))  # 实时显示

最后生成出

["def", " ", "quick", "sort", "(", "arr", ")", ":", "\n", "    ", "if", ...]

等，假设有 60 个 output tokens，那么这 60 次的模型调用，就是 tokens/s 的测量对象

在 llama.cpp 或 Ollama 的性能测试工具中，可以这样测速

start_time = time.time()

# 生成 100 个 output tokens
for i in range(100):
    token = model.generate_next_token()
    output += decode(token)

end_time = time.time()

tokens_per_second = 100 / (end_time - start_time)  # ← 只算输出！