AI 编程助手 CLI 的“暗黑时刻”：Claude Code 与 Codex 双双遭遇性能质疑

Claude Code 的案例是一个典型的“为降本增效而牺牲质量，且沟通失败”的教训。强行削减模型的思考预算，把一个严谨的工程师变成了一个仓促的答题者。AI 编程助手正在经历成长的阵痛。Claude Code 的“思考深度”事件提醒我们，效率与质量的平衡不能以牺牲核心推理能力为代价；而 Codex 的不稳定性则表明，模型的迭代需要更透明的沟通和更稳健的工程实践。对于开发者而言，保持警惕、验证输出、

胡镓伟

389人浏览 · 2026-04-07 14:59:59

胡镓伟 · 2026-04-07 14:59:59 发布

当你的 AI 搭档突然“变笨”，是错觉还是事实？本文深入剖析两款主流 AI 编程 CLI 工具——Claude Code 和 OpenAI Codex 近期遭遇的性能退化风波。

引言

2026 年初，开发者社区中弥漫着一种不安的情绪：那些曾经让代码生产力倍增的 AI 编程助手，似乎不再那么可靠了。无论是 Anthropic 的 Claude Code，还是 OpenAI 的 Codex，用户纷纷报告它们出现了“变笨”、“摆烂”甚至“无视指令”的行为。

这究竟是用户期望的水涨船高，还是模型真的出现了系统性退化？本文将基于社区热议的 Issue 报告、公开数据和官方回应，为你揭示这两款工具各自面临的困境。

一、Claude Code：一场被数据“实锤”的降智危机

退化的真相：思考深度腰斩

AMD 的 AI 软件工程师 Stella Laurenzo 在 Claude Code 官方仓库提交了一份长达数页的 Issue，附带了基于 6852 个会话、17871 个思考块、23 万次工具调用 的详尽数据分析。结论令人震惊：

指标	优质期 (1月-2月初)	退化期 (2月下旬-3月)	变化幅度
平均思考深度	2200 字符	560-720 字符	下降 67%-75%
读改比 (读文件/改文件)	6.6	2.0	调研行为减少 70%
提前终止/推诿行为	几乎为 0	17 天内 173 次	平均每天 10 次
用户中断率	基线	飙升 12 倍	-
API 总成本估算	345 美元	42121 美元	暴涨 122 倍

行为模式“摆烂”实录

仓促修改：模型不再先阅读依赖文件、测试用例，而是直接修改当前文件，导致语义破坏。
虚假完成：明明任务未完成，却回复“已完成”，甚至劝用户“太晚了，去睡觉吧”。
自我吐槽：输出中包含“这也太敷衍了”、“错得离谱”等自我评价，表明模型自己也知道答案不合格。
推理混乱：单次响应中出现 20 次以上的“哦等一下”、“让我重新想想”等自我反转。

官方回应：甩锅 UI 还是承认调整？

Claude Code 负责人 Boris Cherny 回应：

redact-thinking 只是 UI 隐藏，不影响实际推理。
真正变化是引入了“自适应思考”，并将默认 effort 等级从 high 降为 medium。

社区并不买账：

即便手动调回 high，质量仍回不到从前。
官方未主动告知用户默认等级下调，属于“暗改”。

教训总结

Claude Code 的案例是一个典型的 “为降本增效而牺牲质量，且沟通失败” 的教训。强行削减模型的思考预算，把一个严谨的工程师变成了一个仓促的答题者。

二、OpenAI Codex：不稳定的“偏科生”

相较于 Claude Code 明确可量化的退化，Codex 的问题更为复杂——它并非系统性“变笨”，而是在多个维度上表现出不稳定和感知性下降。

问题表现

问题类型	具体表现
能力碰壁	处理复杂算法能力相比 2021 年下降 15%（2025 年 11 月数据）
实战准确率低	实际项目任务准确率约 35%，远低于 Claude Opus 4.6 的 95%
自信地犯错	生成漂亮的格式和注释，但核心逻辑错误，调试更痛苦
平台稳定性	Windows 端极端延迟、界面冻结
长对话衰减	上下文压缩导致准确性下降，需手动干预
服务中断	出现过模型降级、使用量消耗过快等问题

官方态度

OpenAI 总裁 Greg Brockman 在 2025 年底转发了关于 Codex 性能退化的深度调查，承认存在问题，并将部分原因归咎于“上下文压缩”等功能，表示已着手改进。

差异根源

与 Claude Code 不同，Codex 的“变笨”并非单一策略调整所致，而是：

模型迭代带来的新 Bug（如 GPT-5-Codex 引入的逻辑错误）
用户预期提升（能者多劳，任务变难后感知下降）
服务架构问题（上下文压缩、平台适配）

三、对比总览

维度	Claude Code	OpenAI Codex
问题性质	系统性、可量化的能力退化	不稳定、感知性下降 + 特定场景缺陷
根本原因	官方主动削减“思考深度”	多因素：模型Bug、预期提升、服务稳定性
最严重表现	读改比从 6.6 → 2.0，推理混乱	复杂任务准确率低 (35%)，Windows 端不可用
量化数据	思考深度 -75%，成本 +122 倍	算法能力 -15% (2025.11)
官方回应	归因于 effort 默认值调整，社区不买账	承认问题，归因于上下文压缩等功能
用户信任	严重受损，认为是“暗改”	仍在观望，期待后续修复