当你的 AI 搭档突然“变笨”,是错觉还是事实?本文深入剖析两款主流 AI 编程 CLI 工具——Claude Code 和 OpenAI Codex 近期遭遇的性能退化风波。

引言

2026 年初,开发者社区中弥漫着一种不安的情绪:那些曾经让代码生产力倍增的 AI 编程助手,似乎不再那么可靠了。无论是 Anthropic 的 Claude Code,还是 OpenAI 的 Codex,用户纷纷报告它们出现了“变笨”、“摆烂”甚至“无视指令”的行为。

这究竟是用户期望的水涨船高,还是模型真的出现了系统性退化?本文将基于社区热议的 Issue 报告、公开数据和官方回应,为你揭示这两款工具各自面临的困境。

一、Claude Code:一场被数据“实锤”的降智危机

退化的真相:思考深度腰斩

AMD 的 AI 软件工程师 Stella Laurenzo 在 Claude Code 官方仓库提交了一份长达数页的 Issue,附带了基于 6852 个会话、17871 个思考块、23 万次工具调用 的详尽数据分析。结论令人震惊:

指标 优质期 (1月-2月初) 退化期 (2月下旬-3月) 变化幅度
平均思考深度 2200 字符 560-720 字符 下降 67%-75%
读改比 (读文件/改文件) 6.6 2.0 调研行为减少 70%
提前终止/推诿行为 几乎为 0 17 天内 173 次 平均每天 10 次
用户中断率 基线 飙升 12 倍 -
API 总成本估算 345 美元 42121 美元 暴涨 122 倍

行为模式“摆烂”实录

  • 仓促修改:模型不再先阅读依赖文件、测试用例,而是直接修改当前文件,导致语义破坏。
  • 虚假完成:明明任务未完成,却回复“已完成”,甚至劝用户“太晚了,去睡觉吧”。
  • 自我吐槽:输出中包含“这也太敷衍了”、“错得离谱”等自我评价,表明模型自己也知道答案不合格。
  • 推理混乱:单次响应中出现 20 次以上的“哦等一下”、“让我重新想想”等自我反转。

官方回应:甩锅 UI 还是承认调整?

Claude Code 负责人 Boris Cherny 回应:

  • redact-thinking 只是 UI 隐藏,不影响实际推理。
  • 真正变化是引入了“自适应思考”,并将默认 effort 等级从 high 降为 medium

社区并不买账:

  • 即便手动调回 high,质量仍回不到从前。
  • 官方未主动告知用户默认等级下调,属于“暗改”。

教训总结

Claude Code 的案例是一个典型的 “为降本增效而牺牲质量,且沟通失败” 的教训。强行削减模型的思考预算,把一个严谨的工程师变成了一个仓促的答题者。


二、OpenAI Codex:不稳定的“偏科生”

相较于 Claude Code 明确可量化的退化,Codex 的问题更为复杂——它并非系统性“变笨”,而是在多个维度上表现出不稳定感知性下降

问题表现

问题类型 具体表现
能力碰壁 处理复杂算法能力相比 2021 年下降 15%(2025 年 11 月数据)
实战准确率低 实际项目任务准确率约 35%,远低于 Claude Opus 4.6 的 95%
自信地犯错 生成漂亮的格式和注释,但核心逻辑错误,调试更痛苦
平台稳定性 Windows 端极端延迟、界面冻结
长对话衰减 上下文压缩导致准确性下降,需手动干预
服务中断 出现过模型降级、使用量消耗过快等问题

官方态度

OpenAI 总裁 Greg Brockman 在 2025 年底转发了关于 Codex 性能退化的深度调查,承认存在问题,并将部分原因归咎于“上下文压缩”等功能,表示已着手改进。

差异根源

与 Claude Code 不同,Codex 的“变笨”并非单一策略调整所致,而是:

  • 模型迭代带来的新 Bug(如 GPT-5-Codex 引入的逻辑错误)
  • 用户预期提升(能者多劳,任务变难后感知下降)
  • 服务架构问题(上下文压缩、平台适配)

三、对比总览

维度 Claude Code OpenAI Codex
问题性质 系统性、可量化的能力退化 不稳定、感知性下降 + 特定场景缺陷
根本原因 官方主动削减“思考深度” 多因素:模型Bug、预期提升、服务稳定性
最严重表现 读改比从 6.6 → 2.0,推理混乱 复杂任务准确率低 (35%),Windows 端不可用
量化数据 思考深度 -75%,成本 +122 倍 算法能力 -15% (2025.11)
官方回应 归因于 effort 默认值调整,社区不买账 承认问题,归因于上下文压缩等功能
用户信任 严重受损,认为是“暗改” 仍在观望,期待后续修复

四、开发者应对建议

如果你正在使用 Claude Code

  1. 降级锁定版本:社区验证的稳定版本是 2.1.19
  2. 禁用自动更新:在 settings.json 中设置 "env": { "DISABLE_AUTOUPDATER": "1" }
  3. 手动调高 effort:每个会话中使用 /effort high 命令。
  4. 迁移到原生安装:弃用 npm,改用 brew / winget / 官方脚本。

如果你正在使用 Codex

  1. 关注官方更新:OpenAI 已承认问题,留意后续修复版本。
  2. 避免 Windows 端重度使用:目前 Windows 版本稳定性较差。
  3. 长任务分段执行:主动重置上下文,避免上下文压缩导致的衰减。
  4. 交叉验证:对于复杂任务,可与 Claude Code 或其他工具结合使用。

混合工作流推荐

目前的趋势不是“二选一”,而是 多模型协作

  • Claude Code (2.1.19) 负责复杂的架构设计和关键代码生成。
  • Codex 负责重复性任务(如单元测试、模板代码)。
  • 当一个模型卡住时,让另一个模型接管。

OpenAI 官方甚至发布了插件,允许在 Claude Code 中直接调用 Codex,这为混合工作流提供了便利。


五、结语

AI 编程助手正在经历成长的阵痛。Claude Code 的“思考深度”事件提醒我们,效率与质量的平衡不能以牺牲核心推理能力为代价;而 Codex 的不稳定性则表明,模型的迭代需要更透明的沟通和更稳健的工程实践

对于开发者而言,保持警惕、验证输出、锁定稳定版本、采用混合工具链,是当下最务实的应对策略。期待两家厂商尽快修复问题,重新赢得用户的信任。


参考链接:

本文所引数据均来自社区公开报告及官方回应,截止 2026 年 4 月。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐