7小时连续编程不休息!Open AI 凌晨发布 GPT-5-Codex,你的“AI同事”已上线
OpenAI 凌晨发布 GPT-5-Codex,定位 “AI 程序员”,可独立开发、自我修正,能力大幅提升。不开放 API,集成于 IDE、CLI 等场景,云本地协同便捷。代码审查错误率降,高价值建议升,小任务省 Token、大任务更高效。
今天凌晨 1 点,Open AI 发布了全新的GPT-5-Codex。
你说吧,发布归发布,但是你把我的 API 调用方式取消掉干嘛…
针对于这次发布,OpenAI 做了一个决定:Codex 并不通过 API 开放。
所有你就不能靠着 API KEY 来偷偷调用 GPT-5-Codex 模型了,但是 GPT-5-Codex 已经在 CodeX 中上线所有的使用场景了,包括 Codex CLI、IDE 扩展、网页端、移动设备以及 在GitHub 中的代码审查。
对于现在的 GPT-5-Codex 模型,它不再是一个写代码片段的小助手了,而是一个可以独立开发、独立工作、持续思考,还能自我修正的一个真正的—“AI程序员”。
GPT-5-Codex 跑分情况
GPT-5-Codex 其实是 GPT-5 的一个版本,重点优化了在真实的工程场景中的自主式软件工程能力。
它现在可以接受复杂的、现实世界的工程任务的训练,也就是说,它已经接受过完整的项目构建、功能开发、测试调试、以及执行大规模的重构和代码审查。相比于之前的模型,它更容易控制,能更好地遵循AGENTS.md 指令,来生成高质量的代码。
OpenAI 表示:只需告诉它你需要什么,而无需编写有关样式或代码风格的冗长说明。
在基准测试 SWE-bench 中,Codex 的通过率从原来的72.8% 提高到了 74.5%,而且在代码重构任务方面从原来的33.9%提升至51.3%,说明它现在在“修改bug、补全功能能,读取文档”等传统的任务上变得更加可靠了。
对于我们平民玩家,下图是值得注意的一点。
对于按照模型生成的令牌(包括隐藏推理和最终输出),用户交互Token数量最少的 10% 情况下,GPT-5-Codex 使用的命令比 GPT-5 少 93.7%,最多交互数量,也就是前百分之10的,GPT-5-Codex 会投入更多时间,花费两倍的时间推理、编辑和测试代码以及迭代,比 GPT-5 多花了 102.2% 的 Token 数量。
大白话讲,就是,小任务快速迭代,Token数量花费少,复杂的大任务,则是花更多的时间去思考和执行。
如果你或者你的团队经常使用代码审查,那么Codex 肯定是一个最优解,它能帮你省下不少人工精力。
官方对 Codex 的代码审查能力做了评估,可以看到:
-
• 错误建议:由GPT-5原来的13.7%,降到了4.4%。
-
• 高价值建议:GPT-5 只有 39.4%,而 Codex 提升到了 52.4%。
-
• 每个 PR 的平均留言数量:GPT-5 是 1.32 条,Codex 变成 0.93 条。
如何使用
Codex CLI
Codex CLI 也就是我们的黑窗口(终端)模式,而且是开源的,Open AI 社区重构了 CodeX CLI,并且用户可以在 CLI 中附加和共享图像(屏幕截图、线框图和图表)。
Codex 在处理复杂的任务时,会使用待办事项列表跟踪进度,并且也包含连接到外部系统的 Web 搜索和 MCP 等工具,所谓得 MCP 者,得天下,它也是继承了。
另外,终端 UI 也进行了升级,工具的调用和代码的差异化更加清晰,更容易理解,而且审批模式也简化为三个级别。
-
• 只读:需要明确批准才能修改;
-
• 自动:拥有完整工作区权限,但在工作区外仍需批准;
-
• 完全访问:可以读取任意文件,并在有网络访问的情况下运行命令。
CLI 还支持压缩对话状态,方便管理更长的会话。
Codex IDE 扩展
Codex 也能在 IDE 中直接使用,它支持引入到 VS Code、Cursor 和其他 VS Code 分支,可以使用 CodeX 在本地直接修改代码。
简单说就是:Codex 能在你平时干活的地方(比如写代码用的 VS Code 这类工具里)直接帮你,不用你更换地方。它能顺着你打开的文件、选的代码来理解需求,你不用写太长指令,就能更快改好代码。
另外,它还能让你在云端和本地来回干活更方便 —— 在编辑器里直接跳转到云任务,而且它会记得所有的上下文,不用我们在重复解释 prompt 了。
Codex Cloud
Codex Cloud 也就是云代理模式,它可以自己在云端浏览器里打开它写的网页,能最大化提升自动化的上限,并且还可以检查UI效果,然后将运行结果截图发给你,并最终提交到 Github PR上。极大的展示了 AI Agent 的能力。
也就是说,现在它不是一个工具了,而是一个完整的“自动化开发流程”。从需求 -> 架构设计 -> 开发 -> 测试 -> 提交 -> 到最终交付,它正在试图将一切帮你搞定。
怎么用?以及那个“小小的遗憾”
说了这么多牛逼的功能,那到底怎么用?
好消息是,Codex 已包含在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 订阅中。
-
• Plus、Edu、Business 用户:每周可覆盖几次集中的编程会话。
-
• Pro 用户:支持一整周、多个项目的完整工作量。
-
• Business 计划:可以额外购买积分,突破默认上限。
-
• Enterprise 计划:提供共享积分池,按实际使用付费。
写在最后
坦白说,今天既兴奋,又焦虑。
兴奋的一点是,有多了一个强大的AI编码工具。
焦虑的是,这一切来得太快了,好像 Claude 4.5 和 Gemimi 3 也在计划中。
怎么说呢,未来,我们程序员的核心价值,可能不是在写出多少代码了,而是如何向AI提问,怎么提问AI才能更好的 get 到你的点、如何设计多么棒的系统、以及我们如何管理手底下那群“AI工程师”。
大家准备好了吗?迎接这个时代的到来?
好了,今天的分享就到这里。
信息量有点大,建议你先收藏起来慢慢消化。
更多推荐
所有评论(0)