最近持续被谷歌和它的 Nano Banana 刷屏。

OpenAI 发布 GPT-5 可能都没引起这么大的正面轰动。

压力,显然传到了 OpenAI 这边。

OpenAI 急了,它必须做点什么。

于是,8 月 28 日晚,OpenAI 发了一条颇有“预热”意味的直播公告。

Devs, tune in, in Realtime.

Livestream at 10am PT 🗣️

然后,在直播中,OpenAI 官宣发布了 GA(Generally Available)版的 Realtime API 以及新版本“语音-语音” AI 模型:GPT-Realtime


01|Realtime API 正式上线

语音 AI,终于不只是玩具了。

早在 2024 年 10 月 1 日,OpenAI 就发布了 Realtime API 的 Beta 版本,主要是试水。

而这次,Realtime API 正式脱离公测,成为通用(GA)开发接口。

和传统“AI 语音助手”不同,它并不是简单的“语音转文字(STT)+ 大模型处理 + 文字转语音(TTS)”三段式拼接,而是一个“端到端语音对语音”的统一模型,直接把输入的语音转换成输出语音,中间过程不再需要“多模型套娃”。

这意味着什么?

这种“端到端”的语音通话优势可太大了:延迟大幅降低,不用等模型“生成文字再转语音”;语音表达更自然,能保留语气、停顿,甚至笑声;对话节奏也更贴近真人,避免“一问一答中间卡五秒”的尴尬。

对开发者来说,更是直接减负。你无需手动拼装 STT、LLM、TTS 三个模块,只要一个 API,就能把整条链路跑通。

在“AI 实时语音对话”这个方向上,OpenAI 可以称得上是“一枝独秀”了。


02|GPT-Realtime 大升级

不只是语音模型,更是一个“拟人对话演员”。

伴随 Realtime API 一起登场的,是新版语音模型:GPT-Realtime

GPT-Realtime 专为“语音互动”这个场景打造。

根据 OpenAI 官方博文总结一波升级点。

  • 指令理解能力更强:比如你说“快一点,专业一点”,模型真的能“快一点、专业一点”地回复你。

  • 非语言识别能力增强:笑声、语气、感叹等语气信号可以被正确理解。

  • 语言混说无压力:中英文混讲、夹杂法语、西语,都很丝滑;

  • 语音自然度大幅提升:声音更有情绪、更贴近真人;新加入的 Marin 和 Cedar 两种声音尤为出色;

  • 听得懂 VIN 码和拼音:对于一些“AI 一直听不清”的拼读式信息,现在终于可以理解。

所以,这已经不再是“Siri 那样的语音助手”了。GPT-Realtime 完全可以胜任 AI 客服、电话销售、虚拟导游,甚至虚拟主播这些角色。


04|GPT-Realtime 提升有多大?

在多个音频任务评测中,GPT-Realtime 均有所提升。

  • Big Bench Audio(推理能力):82.8%

  • MultiChallenge(指令理解):30.5%

  • ComplexFuncBench(函数调用):66.5%

总结,和 2024 年最早的 gpt-4o-realtime-preview-2024-12-17 相比,提升可以说“很大”;但和最近的版本 gpt-4o-realtime-preview-2025-06-03 相比,提升相当有限,主要是打磨细节。

上图。


04|一些新功能:图像输入、SIP 通话、函数调用、MCP

本次更新,更大的亮点在于为 GPT-Realtime 带来了不少很实用的功能。

  • 图像输入:用户可以边聊天边上传图片,模型可以“看图说话”,比如读图、识图、OCR 等;

  • SIP 通话支持:支持对接电话网络、PBX、桌面电话,可以把 AI 接进真实电话场景;

  • 函数调用升级:支持异步函数调用,能在“等接口返回”的同时继续聊天,不卡顿;

  • MCP(Model Context Protocol)GPT-Realtime 支持 MCP 了!简单理解为“远程上下文服务器”,可以把外部工具能力直接连接到模型上,比如财务系统、CRM、第三方 API;

  • Prompt 可复用:对话模板、工具组合、角色设定等都可以保存复用,开发效率提升不少;

“模型即 Agent”,这一整套功能,已经很像一个“语音智能应用框架”了。


05|更强,也更便宜了

能力升级,模型价格也降了。

OpenAI 这次同步宣布:GPT-Realtime 的 API 价格相较上一代下降了约 20%。

  • 输入音频:32 美元/百万 tokens(缓存后更便宜)

  • 输出语音:64 美元/百万 tokens

换算成更好理解的版本:输入音频约 0.019 美元/每分钟,输出音频约 0.077 美元/每分钟。

接入方式上,支持浏览器端(WebRTC)、服务器端(WebSocket)和 SIP 网络等多种接入方式,算是比较友好。

如果是企业或个人开发者,这个调用成本还是很有性价比的,至少比人工便宜太多。

如果是个人用户,还是直接使用 ChatGPT 的语音模式吧,量大管饱。


结语

OpenAI 还官宣了几家已经在使用 GPT-Realtime 的客户。

  • Zillow:AI 语音助手帮助用户按“生活方式”筛选房源,结合预算模型提供实时建议;

  • T-Mobile:用于 AI 电话客服;

  • Oscar Health、StubHub、Lemonade:覆盖健康、票务、保险等场景。

Zillow 的 AI 负责人表示:“就像在跟朋友聊天一样,这让买房、选贷款这些流程,都不再那么压抑和繁琐。”

这句话,其实也点明了 OpenAI 此次发布的真正野心:

让 AI 从信息工具,变成情绪接口。


我是木易,一个专注 AI 领域的技术产品经理,国内 Top2 本科 + 美国 Top10 CS 硕士。

相信 AI 是普通人的“外挂”,致力于分享 AI 全维度知识。这里有最新的 AI 科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用 AI 为你的未来加速。


精选推荐

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐