GPT-5.4正式发布

yc_Blog

368人浏览 · 2026-03-06 10:45:19

yc_Blog · 2026-03-06 10:45:19 发布

GPT-5.4正式发布：原生电脑操作、100万上下文，OpenAI把AI推向“能干活”的下一阶段

3月5日，OpenAI正式发布GPT-5.4，并同步推出GPT-5.4 Thinking与GPT-5.4 Pro。相比“更会聊天”这一层面的升级，这次更值得关注的，是OpenAI把重点明显放到了专业工作、工具协同和智能体执行能力上。

如果说过去的大模型更像“会回答问题的助手”，那么GPT-5.4想证明的是：AI正在变成一个可以跨应用、跨工具、跨长流程真正把事情做完的工作伙伴。

这次发布，核心不是参数，而是“工作能力”

从OpenAI官方介绍和多家媒体报道来看，GPT-5.4被定位为“面向专业工作的最强、最高效前沿模型”。它不是单纯在某个单点榜单上刷分，而是试图把推理、编程、工具调用、网页检索、文档处理这些能力整合到一个统一模型里。

这背后的信号很明确：OpenAI不再只强调模型“会不会答题”，而是更强调它能不能完成真实工作流。对于开发者、分析师、研究员、运营人员乃至企业内部知识工作者来说，这种变化的意义，远比一次普通版本迭代更大。

GPT-5.4有哪些关键信息？

结合OpenAI官方公告、TechCrunch和界面新闻的公开信息，这次发布可以先抓住几条核心要点：

同时推出GPT-5.4、GPT-5.4 Thinking、GPT-5.4 Pro三种形态
覆盖ChatGPT、API和Codex三个主要使用场景
API版本支持最高100万token上下文窗口
首次把原生电脑操作能力带到通用主力模型中
更强调工具搜索、工具调用和长流程任务执行
在事实性、知识工作、浏览搜索、电脑操作等评测上继续提升

这意味着GPT-5.4并不是“单纯更聪明一点”，而是更像一个面向生产环境打磨过的工作型模型。

原生电脑操作，可能是这次最值得关注的升级

如果只看传播层面，GPT-5.4最吸睛的能力之一，就是原生computer use，也就是让模型直接理解界面、操作电脑、执行跨软件任务。OpenAI在官方稿件中明确提到，这是他们首个具备原生电脑操作能力的通用模型。

这件事为什么重要？因为很多真实工作从来不是“回答一个问题”那么简单。它往往包括打开网页、切换系统、填写表单、整理表格、读取文档、核对结果，再根据中间反馈继续往下做。过去这些流程通常依赖外挂式Agent框架去拼接，而GPT-5.4显然在试图把这部分能力做成更原生的底层能力。

从公开数据看，GPT-5.4在OSWorld-Verified上达到75.0%，高于GPT-5.2的47.3%，甚至超过文中提到的人类表现72.4%。如果这个能力在真实环境里足够稳定，它会直接推动“可执行AI”从演示视频走向更实际的业务落地。

100万上下文，不只是“更长”，而是更适合复杂任务

过去很多人会把上下文窗口理解成“能一次喂更多文本”。但在GPT-5.4这里，100万token上下文的意义不止于此。

更长上下文真正改变的是任务组织方式。它允许模型在更长链路中保留目标、记住中间状态、调用更多材料，并在复杂流程里持续校验前后逻辑。对企业文档分析、多轮研究、代码仓理解、长项目协作来说，这种能力比单轮问答强太多了。

当然，长上下文不自动等于高质量输出，真正关键还是模型能不能在长链条里保持稳定推理和较低幻觉。从OpenAI公布的数据看，GPT-5.4也在朝这个方向推进，比如它声称相较GPT-5.2，单条陈述出错概率降低33%，整段回答出现任意错误的概率降低18%。

工具搜索和工具调用，说明OpenAI开始认真解决“Agent成本”

这次还有一个容易被忽视、但对开发者很关键的升级：Tool Search。

过去一个典型问题是，只要工具一多，模型上下文里就要塞大量工具定义，既贵又慢，还会污染上下文。GPT-5.4引入Tool Search之后，模型不需要一开始就把所有工具定义全吃进去，而是先拿到轻量工具列表，再在需要时按需检索具体定义。

这看起来像个工程优化，但实际影响很大。OpenAI给出的数字是：在MCP Atlas基准的250个任务里，把36个MCP服务器置于tool search之后，总token使用量下降了47%，同时准确率不变。对真正做Agent系统、插件生态或企业工具编排的人来说，这种优化非常实用，因为它直接关系到延迟、成本和可扩展性。

编程能力继续增强，但这次更偏“工作流级编程”

官方说法里，GPT-5.4吸收了GPT-5.3-Codex的编码能力，同时在更长任务、更复杂软件环境和多工具场景里表现更好。换句话说，它不只是“会写函数”，而是更适合在真实开发流程中持续工作。

从评测看，GPT-5.4在SWE-Bench Pro上达到57.7%，略高于GPT-5.3-Codex的56.8%和GPT-5.2的55.6%。这个提升幅度虽然不算夸张，但结合其电脑操作、工具调用和长上下文能力，说明OpenAI更想把它打造成“能从需求走到验证”的开发型模型，而不是单纯代码补全器。

对于开发者来说，这种变化也许比榜单上涨几个点更有价值。真正影响体验的，往往不是它能不能一次写出某段代码，而是它能不能理解项目、调用工具、调试页面、修复错误并持续推进。

这次发布对普通用户和开发者分别意味着什么？

对普通ChatGPT用户来说，最直接的变化会是Thinking模式更透明，能够先给出思路前言，并允许用户在回答过程中调整方向。这会让复杂任务不再像“黑盒一次生成”，而更像和一个会持续校准的助手协作。

对开发者来说，GPT-5.4的看点更集中在四个方向：

更长上下文，适合大型项目和长流程任务
更强工具调用，适合Agent和自动化系统
原生电脑操作，适合浏览器和桌面任务执行
更高token效率，适合控制成本和延迟

而对企业用户来说，这次升级其实更像一个信号：AI产品竞争正在从“聊天体验”转向“工作完成率”。谁能更稳定地做表格、文档、演示稿、网页操作和跨系统协作，谁就更接近真正的生产力工具。

GPT-5.4会带来什么影响？

短期看，GPT-5.4会进一步推动Agent、Copilot和自动化办公工具的竞争升级。以后大家比的可能不再是谁“回答更像人”，而是谁能更稳地完成一整段任务链。

中期看，模型能力的竞争会从通用问答转向“专业工作闭环”。例如金融建模、法务文档、开发测试、信息检索、数据录入、跨软件流程协作，这些都会成为新一轮模型落地的主战场。

长期看，如果原生电脑操作、长上下文和工具生态继续成熟，AI产品的形态也会发生变化。我们熟悉的聊天框可能只是入口，真正的价值会更多发生在背后：模型自己调工具、自己走流程、自己检查结果，然后把完成品交给人。

写在最后

GPT-5.4的意义，不只是OpenAI又发了一个新版本，而是它把大模型的竞争焦点进一步从“理解和生成”，推向了“执行和交付”。这会让AI从一个擅长说答案的系统，逐渐变成一个更像数字员工的执行系统。

这条路当然还远没有走完。真实世界里的网页、软件、权限、异常和业务规则，远比基准测试复杂得多。但至少从这次发布能看出来，OpenAI已经不满足于让模型更会说，而是开始认真让模型更会做。

总结

GPT-5.4的最大看点不是单一指标提升，而是面向专业工作与Agent执行能力的整体整合
原生电脑操作、100万token上下文和Tool Search，是这次最具落地价值的三项升级
对开发者和企业来说，未来竞争重点会从“谁更会回答”转向“谁更能完成真实工作流”

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Babel幽灵注释：删节点为何删不掉注释？

Babel中"幽灵注释"问题的核心原因是注释并非节点的属性，而是通过leadingComments/trailingComments关联的独立对象。当使用path.remove()删除节点时，注释对象及其位置信息仍保留在内存中，导致生成代码时注释被错误保留或漂移。解决方案包括：1)删除前手动清空注释引用；2)用空语句替换节点；3)清除位置元数据。理解Babel"宁留勿漏"的设计哲学，按照"清注释→

2048 AI社区

Flutter 框架跨平台鸿蒙开发 - 生活中的书法练习应用开发文档

2048 AI社区

Claude Code 使用技巧

Claude Code 使用摘要 Claude Code 提供三种交互模式（默认/自动接受/计划模式），支持多种快捷键和斜杠命令管理对话、记忆和任务。用户可通过CLI启动，使用!执行Shell命令，利用Skill复用常用指令，并通过Subagents处理独立任务。记忆系统分为项目级和用户级，支持图片输入和Hooks自动化。MCP协议可扩展外部工具集成，插件系统增强功能边界。

2048 AI社区

所有评论(0)

查看更多评论

yc_Blog

@cucibala

已为社区贡献2条内容