周红伟：OpenClaw +GPT-5.4最强组合发布，GPT-5.4 重磅发布：为专业工作流而生

GPT-5.4 是逻辑推理、代码编写与 AI 智能体工作流的集大成者。它不仅继承了 GPT-5.3-Codex 领先业界的编程能力，还大幅优化了在各类工具、软件环境，以及表格、演示文稿、文档处理等专业场景下的表现。简单来说，它能以极高的准确度与效率，一次性交付符合预期的成果，帮你告别反复沟通与返工操作。

元宇宙iwemeta

372人浏览 · 2026-03-07 09:14:49

元宇宙iwemeta · 2026-03-07 09:14:49 发布

GPT-5.4 是逻辑推理、代码编写与 AI 智能体工作流的集大成者。它不仅继承了 GPT-5.3-Codex 领先业界的编程能力，还大幅优化了在各类工具、软件环境，以及表格、演示文稿、文档处理等专业场景下的表现。

简单来说，它能以极高的准确度与效率，一次性交付符合预期的成果，帮你告别反复沟通与返工操作。

在 ChatGPT 中

GPT-5.4 Thinking 现已支持前置输出「思考计划」，还能在生成回复的过程中「中途调整方向」——无需多轮对话，即可输出完美契合需求的结果。
它还进一步强化了「深度网络搜索」能力，在处理需要长时间推理的追问时，展现出了更强的上下文维持能力。

在 Codex 和 API 端

GPT-5.4 是 OpenAI 首个具备原生顶尖「计算机操作能力」（Computer-use）的通用模型，赋予了 AI 智能体直接操控电脑、跨应用执行复杂工作流的能力。
提供高达 100 万 Token 的上下文支持，让 AI 智能体能在超长周期内，从容完成任务规划、执行与验证。
新增的「工具搜索」机制，优化了模型在庞大工具生态与连接器中的协作表现。能帮助 AI 智能体在不牺牲「智能度」的前提下，高效定位并调用最合适的工具。
除此之外，它还是 OpenAI 迄今为止「Token 利用率」最高的推理模型。面对同类问题时，Token 消耗要远低于 GPT-5.2，不仅极大降低了使用成本，更带来了飞一般的响应速度。

	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval	83.0%	70.9%	70.9%
SWE-Bench Pro	57.7%	56.8%	55.6%
OSWorld-Verified	75.0%	74.0%*	47.3%
Toolathlon	54.6%	51.9%	46.3%
BrowseComp	82.7%	77.3%	65.8%

凭借在通用推理、编程和专业知识型工作上的全面进化，GPT-5.4 在 ChatGPT、API 和 Codex 全平台，为开发者带来了更可靠的 AI 智能体、更迅捷的开发工作流，以及更高质量的输出成果。

GPT-5.4 主要更新

知识型工作

基于 GPT-5.2 扎实的通用推理底座，GPT-5.4 在专业人士最看重的「现实任务」中，交出了一份更稳定、更出色的答卷。

在 GDPval 测试中，GPT-5.4 刷新了行业天花板。它在 83.0% 的对比场景中打平或超越了人类资深专家，前代 GPT-5.2 的成绩仅为 70.9%。

GDPval：涵盖 44 个职业，旨在评估 AI 智能体高质量知识型工作的产出能力。

GDPval 知识工作任务

OpenAI 投入了大量资源，重点提升了 GPT-5.4 创建与编辑表格、演示文稿、文档的能力。

在一项模拟初级投行分析师「电子表格建模」任务的内部基准测试中，GPT-5.4 获得了 87.3% 的平均分，大幅领先于 GPT-5.2 68.4% 的成绩。
在演示文稿专项评估中，人类评估员在 68.0% 的场景下更青睐 GPT-5.4 的作品。核心原因是：它拥有更优秀的美学设计、更丰富的视觉多样性，以及对图像生成能力的出色运用。

目前，你可以在 ChatGPT 中切换到 GPT-5.4 Thinking 或 Pro 模式，来体验这些强悍功能。企业版用户强烈推荐同步上线的「ChatGPT for Excel 插件」。此外，官方对 Codex 和 API 中的表格、幻灯片处理能力，也完成了全面升级。

为了让 GPT-5.4 真正成为现实场景中的工作利器，OpenAI 在降低模型幻觉、减少事实错误上持续发力，是有史以来最严谨求实的模型：

在用户标记为「存在事实错误」的脱敏提示词数据集中，相比 GPT-5.2，GPT-5.4 单条陈述的出错概率降低了 33%，整体回复包含错误的概率也下降了 18%。

计算机操作与视觉感知

作为 OpenAI 首个内建原生「计算机操作」（Computer-use）能力的通用模型，GPT-5.4 为开发者和 AI 智能体带来了关键性突破。对于想要构建可在真实环境中跨网页、跨软件系统执行任务的 AI 智能体而言，它无疑是当下最可靠的选择。

GPT-5.4 经过专项优化，可以轻松应对各类计算机操作任务：

它不仅精通代码编写，还能通过 Playwright 等自动化库操控计算机，更能根据屏幕截图，精准发出鼠标和键盘指令。
依托极强的可控性，开发者可通过提示词微调模型行为，让它完美适配特定业务逻辑。甚至还能自定义确认策略，在不同风险容忍度下，动态调整模型的安全边界。

在多项衡量计算机操作能力的基准测试中，GPT-5.4 的表现十分亮眼：

在 OSWorld-Verified 测试中，它以 75.0% 的成功率，大幅领先 GPT-5.2 47.3% 的成绩，还一举超越了 72.4% 的人类基准水平。

OSWorld-Verified：通过截图和键鼠操作，评估模型桌面环境导航能力的测试。

在 WebArena-Verified 浏览器操作测试中，GPT-5.4 结合 DOM 与截图驱动交互，取得了 67.3% 的成功率（GPT-5.2 为 65.4%）。
在同样考察浏览器操作能力的 Online-Mind2Web 测试中，它仅凭截图观察，就交出了 92.8% 的惊艳成绩，远超 ChatGPT Atlas 智能体模式 70.9% 的表现。

OSWorld-Verified

GPT-5.4 计算机操作能力的飞跃，核心源于其通用视觉感知能力的全面进化：

在 MMMU-Pro 视觉理解与推理评测中，即便不调用外部工具，GPT-5.4 也取得了 81.2% 的成功率，稳稳压过了 GPT-5.2 79.5% 的成绩。
在 OmniDocBench 测试中，即便不启用 Thinking 模式，GPT-5.4 的平均错误率也已降到了 0.109，明显优于 GPT-5.2 的 0.140。

MMMU-Pro（no tools）

OmniDocBench

之外，针对高度依赖画面细节的密集型、高分辨率图像任务，OpenAI 进一步拉高了视觉理解的能力上限：

从 GPT-5.4 开始，API 新增了original图像输入细节级别，最高支持 1024 万总像素，或单边最大 6000 像素的全保真感知。
原有的high细节级别也完成了升级，现在支持 256 万总像素，或单边最大 2048 像素。
在早期用户测试中，开启original或high细节模式后，模型在目标定位、图像理解、点击精准度等方面，均展现出了显著的性能提升。

代码编写

GPT-5.4 将 GPT-5.3-Codex 领先业界的编程能力，与顶尖的知识型工作、计算机操作能力深度融合。在面对长周期开发任务时，模型能更自如地调用工具、迭代代码，在极少人工干预的情况下，持续推进项目。

在 SWE-Bench Pro 测试中，它不仅追平，甚至小幅超越了 GPT-5.3-Codex，还在推理过程中保持了更低的延迟。

SWE-Bench Pro（public）

在 Codex 中启用/fast模式后，GPT-5.4 的 Token 生成速度最高可提升 1.5 倍。内核能力与智能水平毫无缩水，实现了纯粹的速度飞跃。
这意味着，开发者在编码、迭代与调试时，能获得更流畅的体验，思路不再被打断。API 用户也可通过「优先处理」机制，获得同等的极速响应。

GPT-5.4 尤其擅长处理复杂的前端任务，其输出在美学设计与功能完整性上，均远超 OpenAI 此前发布的模型。

工具调用

有了 GPT-5.4，模型与外部工具的协同方式也迎来了质的飞跃。现在，AI 智能体能在更庞大的工具生态中自如穿梭，更精准地挑选所需工具，以更低的成本和延迟完成「多步工作流」。

工具搜索

在 API 端，GPT-5.4 引入了全新的「工具搜索」机制。面对海量可用工具，该机制能让模型始终保持极高的运行效率。

在过去，为模型配置工具时，必须在初始提示词中塞入所有工具定义。对于工具繁多的系统来说，这种做法不仅会在每次请求中强加成千上万的 Token——推高成本、拖慢响应速度，还会让上下文被大量（模型可能永远用不到的）信息填满。
而现在，GPT-5.4 只需接收一份轻量级的「可用工具列表」，同时启用「工具搜索」能力即可。当模型需要用到某个工具时，会（在当下）精准调取该工具的完整定义，并将其动态追加到当前对话上下文中。

这种「按需加载」的策略，大幅削减了重度工具工作流所需的 Token 消耗，同时保留了上下文缓存空间——让请求更快、使用成本更低。更重要的是，它让 AI 智能体能毫无压力地接入超大规模工具生态。比如，对于包含数万 Token 工具定义的 MCP 服务器来说，这种效率提升堪称颠覆性。

为验证该机制的实际效果，OpenAI 在 Scale 的 MCP Atlas 基准测试中抽取了 250 个任务，并启用了全部 36 个 MCP 服务器，对比了以下两种模式：

将所有 MCP 函数直接暴露在模型上下文中。
将所有 MCP 服务器置于「工具搜索」之后。

结果显示，在准确率完全一致的前提下，工具搜索将整体 Token 消耗硬生生降低了 47%。

工具搜索 Token 节省示例

智能体级工具调用

GPT-5.4 进一步优化了「工具调用」机制，API 端的提升尤为显著：

在推理过程中决定何时、如何调用工具时，表现变得更加精准高效。
在 Toolathlon 测试中，相比 GPT-5.2，GPT-5.4 以更少的交互轮数，实现了更高的准确率。

举个例子，当你要求 AI 智能体完成邮件读取、提取附件、上传文件、内容评分，再将成绩录入电子表格的全流程任务时，GPT-5.4 能行云流水般的一气呵成。

Toolathlon

Toolathlon：综合评测 AI 智能体利用真实世界工具和 API 完成多步任务能力的基准测试。

Toolathlon

对延迟极其敏感、倾向于关闭推理过程的业务场景，GPT-5.4 同样比前代取得了显著进步。

𝜏²-bench Telecom（without reasoning）

网络搜索再进化

GPT-5.4 是一款自主性更强的「网络搜索捕手」。在 BrowseComp 测试中，对比 GPT-5.2，GPT-5.4 实现了 17% 的绝对值跃升，而 GPT-5.4 Pro 更是以 89.3% 的成绩创下了全新纪录。

BrowseComp：衡量 AI 智能体持续浏览网页、挖掘极难获取信息能力的测试。

在实际体验中这意味着，当你抛出需要从海量网络信息中抽丝剥茧的问题时，GPT-5.4 Thinking 能展现出更强的掌控力。它极具耐心，能跨多轮持续搜寻并锁定最相关的信源。尤其在面对「大海捞针」般的棘手问题时，它能条理清晰地整理信息，最终输出一份逻辑严密、论证清晰的高质量答案。

BrowseComp

可控性与操纵感

正如 Codex 在开工前会先列出解题思路一样，ChatGPT 中的 GPT-5.4 Thinking 在面对冗长、复杂的指令时，也会先输出一段「前言」，清晰梳理工作计划。更关键的是，你可以在模型「生成回复的中途」，直接追加指令或强行干预思考方向。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2026 AI搜索优化新玩法，免费GEO工具真香

2048 AI社区

AI时代的大数据合规：伦理与法律的平衡之道

随着《通用数据保护条例》（GDPR）、《中华人民共和国个人信息保护法》（PIPL）等法规的落地，以及AI伦理（如欧盟AI伦理框架）的普及，大数据合规已从“可选动作”变为“必选项”。本文聚焦AI驱动的大数据场景（如精准营销、智能风控、医疗AI），探讨如何在法律约束（如数据最小化、用户同意）与伦理要求（如公平性、透明度）之间建立平衡，覆盖技术实现、管理流程与组织文化三个维度。解析大数据合规的核心概念（

2048 AI社区

AI PPT一键生成全实操教程｜5分钟出专业稿，职场/学生/技术人效率神器

AI PPT一键生成技术已成为办公效率升级的刚需工具，合规优质的工具可实现零基础快速出稿，5分钟产出专业级PPT。本篇内容均为实测实操干货，符合CSDN平台发文规范，无违规营销、无虚假数据、无负面表述，大家可放心参考使用。后续我会持续更新AI效率工具实测、办公技巧干货内容，欢迎大家交流探讨各类PPT创作与工具使用问题。