GPT-5.4正式发布:原生电脑操作、100万上下文,OpenAI把AI推向“能干活”的下一阶段

3月5日,OpenAI正式发布GPT-5.4,并同步推出GPT-5.4 Thinking与GPT-5.4 Pro。相比“更会聊天”这一层面的升级,这次更值得关注的,是OpenAI把重点明显放到了专业工作、工具协同和智能体执行能力上。

如果说过去的大模型更像“会回答问题的助手”,那么GPT-5.4想证明的是:AI正在变成一个可以跨应用、跨工具、跨长流程真正把事情做完的工作伙伴。

这次发布,核心不是参数,而是“工作能力”

从OpenAI官方介绍和多家媒体报道来看,GPT-5.4被定位为“面向专业工作的最强、最高效前沿模型”。它不是单纯在某个单点榜单上刷分,而是试图把推理、编程、工具调用、网页检索、文档处理这些能力整合到一个统一模型里。

这背后的信号很明确:OpenAI不再只强调模型“会不会答题”,而是更强调它能不能完成真实工作流。对于开发者、分析师、研究员、运营人员乃至企业内部知识工作者来说,这种变化的意义,远比一次普通版本迭代更大。

GPT-5.4有哪些关键信息?

结合OpenAI官方公告、TechCrunch和界面新闻的公开信息,这次发布可以先抓住几条核心要点:

  • 同时推出GPT-5.4、GPT-5.4 Thinking、GPT-5.4 Pro三种形态
  • 覆盖ChatGPT、API和Codex三个主要使用场景
  • API版本支持最高100万token上下文窗口
  • 首次把原生电脑操作能力带到通用主力模型中
  • 更强调工具搜索、工具调用和长流程任务执行
  • 在事实性、知识工作、浏览搜索、电脑操作等评测上继续提升

这意味着GPT-5.4并不是“单纯更聪明一点”,而是更像一个面向生产环境打磨过的工作型模型。

原生电脑操作,可能是这次最值得关注的升级

如果只看传播层面,GPT-5.4最吸睛的能力之一,就是原生computer use,也就是让模型直接理解界面、操作电脑、执行跨软件任务。OpenAI在官方稿件中明确提到,这是他们首个具备原生电脑操作能力的通用模型。

这件事为什么重要?因为很多真实工作从来不是“回答一个问题”那么简单。它往往包括打开网页、切换系统、填写表单、整理表格、读取文档、核对结果,再根据中间反馈继续往下做。过去这些流程通常依赖外挂式Agent框架去拼接,而GPT-5.4显然在试图把这部分能力做成更原生的底层能力。

从公开数据看,GPT-5.4在OSWorld-Verified上达到75.0%,高于GPT-5.2的47.3%,甚至超过文中提到的人类表现72.4%。如果这个能力在真实环境里足够稳定,它会直接推动“可执行AI”从演示视频走向更实际的业务落地。

100万上下文,不只是“更长”,而是更适合复杂任务

过去很多人会把上下文窗口理解成“能一次喂更多文本”。但在GPT-5.4这里,100万token上下文的意义不止于此。

更长上下文真正改变的是任务组织方式。它允许模型在更长链路中保留目标、记住中间状态、调用更多材料,并在复杂流程里持续校验前后逻辑。对企业文档分析、多轮研究、代码仓理解、长项目协作来说,这种能力比单轮问答强太多了。

当然,长上下文不自动等于高质量输出,真正关键还是模型能不能在长链条里保持稳定推理和较低幻觉。从OpenAI公布的数据看,GPT-5.4也在朝这个方向推进,比如它声称相较GPT-5.2,单条陈述出错概率降低33%,整段回答出现任意错误的概率降低18%。

工具搜索和工具调用,说明OpenAI开始认真解决“Agent成本”

这次还有一个容易被忽视、但对开发者很关键的升级:Tool Search。

过去一个典型问题是,只要工具一多,模型上下文里就要塞大量工具定义,既贵又慢,还会污染上下文。GPT-5.4引入Tool Search之后,模型不需要一开始就把所有工具定义全吃进去,而是先拿到轻量工具列表,再在需要时按需检索具体定义。

这看起来像个工程优化,但实际影响很大。OpenAI给出的数字是:在MCP Atlas基准的250个任务里,把36个MCP服务器置于tool search之后,总token使用量下降了47%,同时准确率不变。对真正做Agent系统、插件生态或企业工具编排的人来说,这种优化非常实用,因为它直接关系到延迟、成本和可扩展性。

编程能力继续增强,但这次更偏“工作流级编程”

官方说法里,GPT-5.4吸收了GPT-5.3-Codex的编码能力,同时在更长任务、更复杂软件环境和多工具场景里表现更好。换句话说,它不只是“会写函数”,而是更适合在真实开发流程中持续工作。

从评测看,GPT-5.4在SWE-Bench Pro上达到57.7%,略高于GPT-5.3-Codex的56.8%和GPT-5.2的55.6%。这个提升幅度虽然不算夸张,但结合其电脑操作、工具调用和长上下文能力,说明OpenAI更想把它打造成“能从需求走到验证”的开发型模型,而不是单纯代码补全器。

对于开发者来说,这种变化也许比榜单上涨几个点更有价值。真正影响体验的,往往不是它能不能一次写出某段代码,而是它能不能理解项目、调用工具、调试页面、修复错误并持续推进。

这次发布对普通用户和开发者分别意味着什么?

对普通ChatGPT用户来说,最直接的变化会是Thinking模式更透明,能够先给出思路前言,并允许用户在回答过程中调整方向。这会让复杂任务不再像“黑盒一次生成”,而更像和一个会持续校准的助手协作。

对开发者来说,GPT-5.4的看点更集中在四个方向:

  • 更长上下文,适合大型项目和长流程任务
  • 更强工具调用,适合Agent和自动化系统
  • 原生电脑操作,适合浏览器和桌面任务执行
  • 更高token效率,适合控制成本和延迟

而对企业用户来说,这次升级其实更像一个信号:AI产品竞争正在从“聊天体验”转向“工作完成率”。谁能更稳定地做表格、文档、演示稿、网页操作和跨系统协作,谁就更接近真正的生产力工具。

GPT-5.4会带来什么影响?

短期看,GPT-5.4会进一步推动Agent、Copilot和自动化办公工具的竞争升级。以后大家比的可能不再是谁“回答更像人”,而是谁能更稳地完成一整段任务链。

中期看,模型能力的竞争会从通用问答转向“专业工作闭环”。例如金融建模、法务文档、开发测试、信息检索、数据录入、跨软件流程协作,这些都会成为新一轮模型落地的主战场。

长期看,如果原生电脑操作、长上下文和工具生态继续成熟,AI产品的形态也会发生变化。我们熟悉的聊天框可能只是入口,真正的价值会更多发生在背后:模型自己调工具、自己走流程、自己检查结果,然后把完成品交给人。

写在最后

GPT-5.4的意义,不只是OpenAI又发了一个新版本,而是它把大模型的竞争焦点进一步从“理解和生成”,推向了“执行和交付”。这会让AI从一个擅长说答案的系统,逐渐变成一个更像数字员工的执行系统。

这条路当然还远没有走完。真实世界里的网页、软件、权限、异常和业务规则,远比基准测试复杂得多。但至少从这次发布能看出来,OpenAI已经不满足于让模型更会说,而是开始认真让模型更会做。

总结

  • GPT-5.4的最大看点不是单一指标提升,而是面向专业工作与Agent执行能力的整体整合
  • 原生电脑操作、100万token上下文和Tool Search,是这次最具落地价值的三项升级
  • 对开发者和企业来说,未来竞争重点会从“谁更会回答”转向“谁更能完成真实工作流”
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐