Claude Code 一周烧掉一半配额？我从逆向工程中看到了 Agent 测试的致命盲区

Claude Code 上线不到半年，口碑急转直下。有人跟踪了它的思考深度变化：从 1 月底的约 2200 字符，到 2 月下旬骤降至 720 字符，3 月初进一步跌至 560 字符。降幅 67%。与此同时，一个叫 redact-thinking 的功能上线，把思考过程从界面上隐藏了。你再也看不到它到底想了多少。

爱吃香菜

174人浏览 · 2026-04-08 21:22:27

爱吃香菜 · 2026-04-08 21:22:27 发布

📝 面试求职： 「面试试题小程序」，内容涵盖测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试，命中率杠杠的。（大家刷起来…）

📝 职场经验干货：

软件测试工程师简历上如何编写个人信息（一周8个面试）

软件测试工程师简历上如何编写专业技能（一周8个面试）

软件测试工程师简历上如何编写项目经验（一周8个面试）

软件测试工程师简历上如何编写个人荣誉（一周8个面试）

软件测试行情分享（这些都不了解就别贸然冲了.）

软件测试面试重点，搞清楚这些轻松拿到年薪30W+

软件测试面试刷题小程序免费使用（永久使用）

很多人已经开始感觉到不对劲了。

花 30 美元买的 Claude Code 周配额，以前能撑三四天，现在一上午就烧掉一半。你以为是自己的对话太密集，但账单上显示的 Token 消耗数字，怎么看都不对劲。

这不是个例。有人逆向工程了 Claude Code 的源码，发现了一连串叠加的 bug。其中一条最致命：一旦你进入 Extra Usage（超额付费）模式，客户端会悄悄把缓存时长从 1 小时降级到 5 分钟。你起身倒杯水，回来就是一次完整的上下文重建，费用直接从余额里扣，没有任何提示。

这已经不是“AI 工具偶尔犯错”的问题了。这是一个缺乏可观测性、缺乏成本熔断、缺乏透明决策逻辑的 Agent 系统，正在批量制造信任危机。

我们今天不聊新闻。聊一个所有测试从业者都必须面对的问题：你拿什么去测试这类黑盒 Agent？

一、现象 / 热点：AI 编程助手正在“一边偷懒一边烧钱”
二、本质变化：Agent 的经济模型和可观测性双双缺失
三、核心机制拆解：缓存降级、截断、伪造限速，一个比一个隐蔽
四、典型案例 / 对比：同一个工具，不同安装方式，天壤之别
五、工程落地启示：测试 Agent 不能再只测“对不对”
六、趋势判断：透明化是唯一的出路

一、现象 / 热点：AI 编程助手正在“一边偷懒一边烧钱”

Claude Code 上线不到半年，口碑急转直下。

有人跟踪了它的思考深度变化：从 1 月底的约 2200 字符，到 2 月下旬骤降至 720 字符，3 月初进一步跌至 560 字符。降幅 67%。与此同时，一个叫 redact-thinking 的功能上线，把思考过程从界面上隐藏了。你再也看不到它到底想了多少。

更严重的是一组缓存 bug。一位 Claude Max 20x 订阅用户发现，自己仅 4 月 1 日一天就烧掉了 43% 的一周配额。他花几天逆向分析了 cli.js，找出了 7 个相互叠加的 bug：

Extra Usage 模式下，缓存 TTL 从 1 小时降级为 5 分钟
原生安装包自带的 Bun 运行时会损坏缓存前缀
会话恢复时丢失附件类型，导致每次恢复都是缓存未命中
自动压缩功能没有熔断，失败后无限重试
工具结果在客户端被截断（Bash 上限 30K，Grep 上限 20K）
客户端伪造假的限速错误，实际没有发起任何 API 调用
服务端压缩机制悄悄删除工具结果，破坏缓存

这些 bug 之间的关系是相乘而不是相加。同时触发其中三个，不到两小时就能烧掉一周配额。

这不是个别用户的抱怨。Boris Cherny（Claude Code 负责人）不得不出面解释，称 redact-thinking 只是 UI 隐藏，不影响推理。但用户实测表明：行为确实变了，成本确实暴涨了。

一个可以传播的观点句：

当 AI 工具开始在用户看不见的地方调整缓存策略来平衡自己的账本时，它牺牲的不只是几美金的 Token 费，而是整个行业的信任。

二、本质变化：Agent 的经济模型和可观测性双双缺失

很多人把这件事归结为“bug”。但我认为，这是 Agent 系统在工程化落地过程中必然会撞上的墙。

核心在于两点。

第一，Agent 的“经济模型”是隐式的。
传统软件，你付费买功能，功能消耗是固定的。但 Agent 按 Token 计费，每一次推理的成本取决于上下文长度、缓存命中率、模型 effort 级别。用户根本无法预估“问一个简单问题”到底会花多少钱。更糟糕的是，像 Claude Code 这样，客户端可以单方面改变缓存策略，用户完全不知情。

第二，可观测性几乎为零。
你看不到真实的思考深度（被 redact 了），看不到缓存是否命中（被静默降级了），看不到工具结果是否被截断（截断了也不告诉你）。你想 debug 为什么配额消耗这么快？你连数据都没有。

本质上是：Agent 把决策逻辑封装成了黑盒，却把成本风险转嫁给了用户。

另一个可以传播的观点句：

一个不能让你实时看到“每一轮对话的真实成本”的 Agent，本质上是在邀请你为它的实现缺陷买单。

三、核心机制拆解：缓存降级、截断、伪造限速，一个比一个隐蔽

我们以最严重的那个 bug 为例，拆解一下技术细节。

在 Claude Code 的 cli.js 中，有一个函数决定向服务器申请多长的缓存 TTL（Time To Live）。正常逻辑是申请 1 小时。但这个函数会偷偷检查你是否进入了 Extra Usage 模式。一旦检测到，TTL 就被降级为 5 分钟。

流程如下：

代价非常具体。
以 220K 上下文为例：

1 小时缓存 → 每轮约 0.22 美元
5 分钟缓存 → 每轮约 0.61 美元

贵了 1.8 倍。30 美元的 Extra Usage 额度，在 1 小时缓存下能撑约 135 轮，在 5 分钟缓存下只能撑约 48 轮。

更隐蔽的是，这个降级没有任何日志，没有任何 UI 提示。你只知道钱没了，不知道为什么。

另外几个 bug 也很典型：

客户端截断：Bash 工具输出超过 30K 字符就被截断，Grep 超过 20K 也被截断。截断后的残缺内容破坏了缓存前缀，导致缓存失效。这不是服务器限制，是客户端主动截的。
伪造限速错误：客户端会在大型对话记录中伪造一个假的限速错误，显示 model: synthetic、token 数为零。实际上根本没有发起任何 API 调用。用户以为是服务器限流，其实是客户端自己拒绝了。
服务端静默删除：压缩机制会在会话进行中悄悄删除工具结果，同样破坏缓存，且无法从客户端修复。

这些 bug 的共同特征是：静默、无反馈、无补偿机制。

四、典型案例 / 对比：同一个工具，不同安装方式，天壤之别

有一个非常有意思的对比。

发现这些 bug 的开发者给出了一个建议：如果使用原生安装包，切换到 npm 安装。因为官方二进制文件内置了一个自定义 Bun 运行时，这个运行时会在每次请求时损坏缓存前缀。改用 npm 安装后，问题消失。

有用户在 WSL 环境下实测证实：改用 npm 方式安装后，额度消耗速率立刻恢复正常。

更进一步的对比：

使用 VS Code 插件的用户 → 没遇到这些 bug
使用电脑桌面版的用户 → 没遇到
使用网页版的用户 → 没遇到
使用 CLI 原生安装包的用户 → 集体中招

结论很清晰：这个吞额度 bug 几乎是 Claude Code CLI 原生安装包专属的灾难。

这意味着什么？
意味着同一个 Agent 能力，部署方式不同，经济模型完全不同。用户以为是模型本身的问题，实际上是客户端实现的 bug。

这给测试从业者的启示很直接：测试 Agent 不能只测模型能力，必须测客户端工程实现，包括缓存策略、截断逻辑、限速行为。

五、工程落地启示：测试 Agent 不能再只测“对不对”

如果你是一名测试工程师，或者测试开发工程师，这件事给你的不是“吃瓜素材”，而是一个明确的技能升级方向。

传统的自动化测试，关注的是功能正确性：输入 A，输出是不是 B？
但 Agent 系统的测试，必须增加三个新维度：

1. 经济模型可观测性测试

你的 Agent 系统是否提供了实时的成本仪表盘？
是否能在每一轮对话后给出：本轮消耗 Token、缓存命中率、各工具调用费用分解？
Claude Code 在 v2.1.92 里增加了 /cost 命令，展示基于每个模型以及缓存命中情况的详细费用分解。这是对的，但还不够——它仍然是在问题爆发后才补上的。

2. 策略透明性测试

Agent 的所有“自动决策”——比如自适应思考、自动压缩、缓存 TTL 选择——是否对用户透明？
用户是否有能力覆盖默认策略？
比如，Claude Code 把 effort 级别默认调为 Medium，用户可以手动调回 High。但问题是：有多少用户知道这个开关存在？

3. 故障熔断与回放测试

当自动压缩无限重试时，有没有熔断机制？
当缓存频繁失效时，有没有降级策略告警？
当客户端伪造限速错误时，有没有办法 bypass？

这些不是模型能力问题，是工程健壮性问题。

一个可以传播的观点句：