从cursor请求全链路中分析 Token 省钱小妙招

摘要：Cursor平台详细说明了AI交互中的Token使用机制，分为输入、输出、缓存写入和缓存读取四类，价格各不相同。用户可在仪表盘查看使用情况，平台建议通过精简请求内容、启用必要工具、开启新会话等方式降低Token消耗。不同模型价格差异较大，更换模型可能增加Token使用量，建议在新会话中切换模型以获得最佳效果。

AI前端高级工程师

619人浏览 · 2025-09-23 10:11:11

AI前端高级工程师 · 2025-09-23 10:11:11 发布

以下是 Cursor 中 LLM (AI) Token 使用的全链路详细说明:

每次在 Cursor 中与 AI 模型交互时都会使用 Token｡为了透明化，Token 数量会显示为 AI 提供者处理和报告的数量｡您可以在 Dashboard > Usage 中查看您的使用情况，如果您有基于使用的定价，也可以在 Dashboard > Billing 中查看｡仪表板正在改进中，以便在一条线上显示单个请求的所有 AI 使用情况，即使多个工具调用被组合在一起｡

token 被分为四组:

输入 token：原始用户请求，包括附加的规则､文件和 MCPs……

输入 token 进一步分为:
- 带缓存写入的输入：需要缓存以高效处理后续步骤的信息｡
- 无缓存写入的输入：仅用于单个步骤且未缓存的信息｡
输出 token：AI 的响应，例如代码､聊天回复和工具调用结果｡
缓存写入 token：保存到 AI 提供者的临时缓存中的消息和工具调用结果，以提高未来请求的效率｡
缓存读取 token：在后续步骤中用于生成新的 AI 输出的缓存 token (聊天历史和上下文)｡这些 token 更便宜，通常成本约为输入 token 的 10-25%｡

每个 token 组根据提供者 API 成本 * 1.2 进行计数和计价，并显示总 token 数｡

请求的流程:

您的初始请求连同上下文被作为输入 token 发送｡
AI 处理输入并生成输出 (输出 token)｡
工具调用可能会被触发，例如读取文件或搜索代码｡这些调用会使用当前上下文，并向上下文中添加更多 token｡
每个工具调用的响应都会被缓存，增加缓存的大小｡
如果需要更多步骤，则重复该过程：发送新的输入，生成更多输出，并可能发生额外的工具调用｡
聊天中的后续请求工作原理相同｡每一步都会增加缓存，随着上下文的增长，缓存读取的 token 会累积｡

示例:

一个请求开始时有 5,000 个输入 token，这些 token 被处理并缓存｡
一个工具调用使用了缓存的上下文，并增加了另外 5,000 个 token，这些 token 也会被缓存｡
经过两步操作，缓存中有 10,000 个 token｡当这些 token 在下一轮 API 调用中用于 AI 提供者时，它们会被计为缓存读取 token，并享受较低的成本 (10-25% 的输入 token 价格，具体取决于提供者)｡

如果你看到高 token 计数:

输入 token：附加了过多的上下文 (规则､文件等)｡通过删除不必要的部分来减少｡
输出 token：AI 的响应很大｡如果可能，请限制输出｡
缓存写入 token：很多上下文正在被处理和缓存｡简化您的指令和附件｡
缓存读取 token：这些随着长或复杂的聊天而增加，因为上下文随着每一步而增长｡对于包含多个工具调用和后续请求的聊天来说，这是正常的，但可以通过为新的任务开始新的聊天来减少｡