周红伟:OpenClaw +GPT-5.4最强组合发布,GPT-5.4 重磅发布:为专业工作流而生
GPT-5.4 是逻辑推理、代码编写与 AI 智能体工作流的集大成者。它不仅继承了 GPT-5.3-Codex 领先业界的编程能力,还大幅优化了在各类工具、软件环境,以及表格、演示文稿、文档处理等专业场景下的表现。简单来说,它能以极高的准确度与效率,一次性交付符合预期的成果,帮你告别反复沟通与返工操作。
GPT-5.4 是逻辑推理、代码编写与 AI 智能体工作流的集大成者。它不仅继承了 GPT-5.3-Codex 领先业界的编程能力,还大幅优化了在各类工具、软件环境,以及表格、演示文稿、文档处理等专业场景下的表现。

简单来说,它能以极高的准确度与效率,一次性交付符合预期的成果,帮你告别反复沟通与返工操作。
在 ChatGPT 中
- GPT-5.4 Thinking 现已支持前置输出「思考计划」,还能在生成回复的过程中「中途调整方向」——无需多轮对话,即可输出完美契合需求的结果。
- 它还进一步强化了「深度网络搜索」能力,在处理需要长时间推理的追问时,展现出了更强的上下文维持能力。
在 Codex 和 API 端
- GPT-5.4 是 OpenAI 首个具备原生顶尖「计算机操作能力」(Computer-use)的通用模型,赋予了 AI 智能体直接操控电脑、跨应用执行复杂工作流的能力。
- 提供高达 100 万 Token 的上下文支持,让 AI 智能体能在超长周期内,从容完成任务规划、执行与验证。
- 新增的「工具搜索」机制,优化了模型在庞大工具生态与连接器中的协作表现。能帮助 AI 智能体在不牺牲「智能度」的前提下,高效定位并调用最合适的工具。
- 除此之外,它还是 OpenAI 迄今为止「Token 利用率」最高的推理模型。面对同类问题时,Token 消耗要远低于 GPT-5.2,不仅极大降低了使用成本,更带来了飞一般的响应速度。
| GPT-5.4 | GPT-5.3-Codex | GPT-5.2 | |
|---|---|---|---|
| GDPval | 83.0% | 70.9% | 70.9% |
| SWE-Bench Pro | 57.7% | 56.8% | 55.6% |
| OSWorld-Verified | 75.0% | 74.0%* | 47.3% |
| Toolathlon | 54.6% | 51.9% | 46.3% |
| BrowseComp | 82.7% | 77.3% | 65.8% |
凭借在通用推理、编程和专业知识型工作上的全面进化,GPT-5.4 在 ChatGPT、API 和 Codex 全平台,为开发者带来了更可靠的 AI 智能体、更迅捷的开发工作流,以及更高质量的输出成果。
GPT-5.4 主要更新
知识型工作
基于 GPT-5.2 扎实的通用推理底座,GPT-5.4 在专业人士最看重的「现实任务」中,交出了一份更稳定、更出色的答卷。
- 在 GDPval 测试中,GPT-5.4 刷新了行业天花板。它在 83.0% 的对比场景中打平或超越了人类资深专家,前代 GPT-5.2 的成绩仅为 70.9%。
GDPval:涵盖 44 个职业,旨在评估 AI 智能体高质量知识型工作的产出能力。
GDPval 知识工作任务
OpenAI 投入了大量资源,重点提升了 GPT-5.4 创建与编辑表格、演示文稿、文档的能力。
- 在一项模拟初级投行分析师「电子表格建模」任务的内部基准测试中,GPT-5.4 获得了 87.3% 的平均分,大幅领先于 GPT-5.2 68.4% 的成绩。
- 在演示文稿专项评估中,人类评估员在 68.0% 的场景下更青睐 GPT-5.4 的作品。核心原因是:它拥有更优秀的美学设计、更丰富的视觉多样性,以及对图像生成能力的出色运用。
目前,你可以在 ChatGPT 中切换到 GPT-5.4 Thinking 或 Pro 模式,来体验这些强悍功能。企业版用户强烈推荐同步上线的「ChatGPT for Excel 插件」。此外,官方对 Codex 和 API 中的表格、幻灯片处理能力,也完成了全面升级。
为了让 GPT-5.4 真正成为现实场景中的工作利器,OpenAI 在降低模型幻觉、减少事实错误上持续发力,是有史以来最严谨求实的模型:
- 在用户标记为「存在事实错误」的脱敏提示词数据集中,相比 GPT-5.2,GPT-5.4 单条陈述的出错概率降低了 33%,整体回复包含错误的概率也下降了 18%。
计算机操作与视觉感知
作为 OpenAI 首个内建原生「计算机操作」(Computer-use)能力的通用模型,GPT-5.4 为开发者和 AI 智能体带来了关键性突破。对于想要构建可在真实环境中跨网页、跨软件系统执行任务的 AI 智能体而言,它无疑是当下最可靠的选择。
GPT-5.4 经过专项优化,可以轻松应对各类计算机操作任务:
- 它不仅精通代码编写,还能通过 Playwright 等自动化库操控计算机,更能根据屏幕截图,精准发出鼠标和键盘指令。
- 依托极强的可控性,开发者可通过提示词微调模型行为,让它完美适配特定业务逻辑。甚至还能自定义确认策略,在不同风险容忍度下,动态调整模型的安全边界。
在多项衡量计算机操作能力的基准测试中,GPT-5.4 的表现十分亮眼:
- 在 OSWorld-Verified 测试中,它以 75.0% 的成功率,大幅领先 GPT-5.2 47.3% 的成绩,还一举超越了 72.4% 的人类基准水平。
OSWorld-Verified:通过截图和键鼠操作,评估模型桌面环境导航能力的测试。
- 在 WebArena-Verified 浏览器操作测试中,GPT-5.4 结合 DOM 与截图驱动交互,取得了 67.3% 的成功率(GPT-5.2 为 65.4%)。
- 在同样考察浏览器操作能力的 Online-Mind2Web 测试中,它仅凭截图观察,就交出了 92.8% 的惊艳成绩,远超 ChatGPT Atlas 智能体模式 70.9% 的表现。

OSWorld-Verified
GPT-5.4 计算机操作能力的飞跃,核心源于其通用视觉感知能力的全面进化:
- 在 MMMU-Pro 视觉理解与推理评测中,即便不调用外部工具,GPT-5.4 也取得了 81.2% 的成功率,稳稳压过了 GPT-5.2 79.5% 的成绩。
- 在 OmniDocBench 测试中,即便不启用 Thinking 模式,GPT-5.4 的平均错误率也已降到了 0.109,明显优于 GPT-5.2 的 0.140。

MMMU-Pro(no tools)

OmniDocBench
之外,针对高度依赖画面细节的密集型、高分辨率图像任务,OpenAI 进一步拉高了视觉理解的能力上限:
- 从 GPT-5.4 开始,API 新增了
original图像输入细节级别,最高支持 1024 万总像素,或单边最大 6000 像素的全保真感知。 - 原有的
high细节级别也完成了升级,现在支持 256 万总像素,或单边最大 2048 像素。 - 在早期用户测试中,开启
original或high细节模式后,模型在目标定位、图像理解、点击精准度等方面,均展现出了显著的性能提升。
代码编写
GPT-5.4 将 GPT-5.3-Codex 领先业界的编程能力,与顶尖的知识型工作、计算机操作能力深度融合。在面对长周期开发任务时,模型能更自如地调用工具、迭代代码,在极少人工干预的情况下,持续推进项目。
在 SWE-Bench Pro 测试中,它不仅追平,甚至小幅超越了 GPT-5.3-Codex,还在推理过程中保持了更低的延迟。

SWE-Bench Pro(public)
- 在 Codex 中启用
/fast模式后,GPT-5.4 的 Token 生成速度最高可提升 1.5 倍。内核能力与智能水平毫无缩水,实现了纯粹的速度飞跃。 - 这意味着,开发者在编码、迭代与调试时,能获得更流畅的体验,思路不再被打断。API 用户也可通过「优先处理」机制,获得同等的极速响应。
GPT-5.4 尤其擅长处理复杂的前端任务,其输出在美学设计与功能完整性上,均远超 OpenAI 此前发布的模型。
工具调用
有了 GPT-5.4,模型与外部工具的协同方式也迎来了质的飞跃。现在,AI 智能体能在更庞大的工具生态中自如穿梭,更精准地挑选所需工具,以更低的成本和延迟完成「多步工作流」。
工具搜索
在 API 端,GPT-5.4 引入了全新的「工具搜索」机制。面对海量可用工具,该机制能让模型始终保持极高的运行效率。
- 在过去,为模型配置工具时,必须在初始提示词中塞入所有工具定义。对于工具繁多的系统来说,这种做法不仅会在每次请求中强加成千上万的 Token——推高成本、拖慢响应速度,还会让上下文被大量(模型可能永远用不到的)信息填满。
- 而现在,GPT-5.4 只需接收一份轻量级的「可用工具列表」,同时启用「工具搜索」能力即可。当模型需要用到某个工具时,会(在当下)精准调取该工具的完整定义,并将其动态追加到当前对话上下文中。
这种「按需加载」的策略,大幅削减了重度工具工作流所需的 Token 消耗,同时保留了上下文缓存空间——让请求更快、使用成本更低。更重要的是,它让 AI 智能体能毫无压力地接入超大规模工具生态。比如,对于包含数万 Token 工具定义的 MCP 服务器来说,这种效率提升堪称颠覆性。
为验证该机制的实际效果,OpenAI 在 Scale 的 MCP Atlas 基准测试中抽取了 250 个任务,并启用了全部 36 个 MCP 服务器,对比了以下两种模式:
- 将所有 MCP 函数直接暴露在模型上下文中。
- 将所有 MCP 服务器置于「工具搜索」之后。
结果显示,在准确率完全一致的前提下,工具搜索将整体 Token 消耗硬生生降低了 47%。

工具搜索 Token 节省示例
智能体级工具调用
GPT-5.4 进一步优化了「工具调用」机制,API 端的提升尤为显著:
- 在推理过程中决定何时、如何调用工具时,表现变得更加精准高效。
- 在 Toolathlon 测试中, 相比 GPT-5.2,GPT-5.4 以更少的交互轮数,实现了更高的准确率。
举个例子,当你要求 AI 智能体完成邮件读取、提取附件、上传文件、内容评分,再将成绩录入电子表格的全流程任务时,GPT-5.4 能行云流水般的一气呵成。
Toolathlon
Toolathlon:综合评测 AI 智能体利用真实世界工具和 API 完成多步任务能力的基准测试。

Toolathlon
- 对延迟极其敏感、倾向于关闭推理过程的业务场景,GPT-5.4 同样比前代取得了显著进步。

𝜏²-bench Telecom(without reasoning)
网络搜索再进化
GPT-5.4 是一款自主性更强的「网络搜索捕手」。在 BrowseComp 测试中,对比 GPT-5.2,GPT-5.4 实现了 17% 的绝对值跃升,而 GPT-5.4 Pro 更是以 89.3% 的成绩创下了全新纪录。
BrowseComp:衡量 AI 智能体持续浏览网页、挖掘极难获取信息能力的测试。
在实际体验中这意味着,当你抛出需要从海量网络信息中抽丝剥茧的问题时,GPT-5.4 Thinking 能展现出更强的掌控力。它极具耐心,能跨多轮持续搜寻并锁定最相关的信源。尤其在面对「大海捞针」般的棘手问题时,它能条理清晰地整理信息,最终输出一份逻辑严密、论证清晰的高质量答案。

BrowseComp
可控性与操纵感
- 正如 Codex 在开工前会先列出解题思路一样,ChatGPT 中的 GPT-5.4 Thinking 在面对冗长、复杂的指令时,也会先输出一段「前言」,清晰梳理工作计划。更关键的是,你可以在模型「生成回复的中途」,直接追加指令或强行干预思考方向。
更多推荐

所有评论(0)