谷歌刷屏，OpenAI 急了：Realtime API 正式上线，GPT-Realtime 全面升级！

木易AI信息差

924人浏览 · 2025-08-30 09:19:46

木易AI信息差 · 2025-08-30 09:19:46 发布

最近持续被谷歌和它的 Nano Banana 刷屏。

OpenAI 发布 GPT-5 可能都没引起这么大的正面轰动。

压力，显然传到了 OpenAI 这边。

OpenAI 急了，它必须做点什么。

于是，8 月 28 日晚，OpenAI 发了一条颇有“预热”意味的直播公告。

Devs, tune in, in Realtime.

Livestream at 10am PT 🗣️

然后，在直播中，OpenAI 官宣发布了 GA（Generally Available）版的 Realtime API 以及新版本“语音-语音” AI 模型：GPT-Realtime。

01｜Realtime API 正式上线

语音 AI，终于不只是玩具了。

早在 2024 年 10 月 1 日，OpenAI 就发布了 Realtime API 的 Beta 版本，主要是试水。

而这次，Realtime API 正式脱离公测，成为通用（GA）开发接口。

和传统“AI 语音助手”不同，它并不是简单的“语音转文字（STT）+ 大模型处理 + 文字转语音（TTS）”三段式拼接，而是一个“端到端语音对语音”的统一模型，直接把输入的语音转换成输出语音，中间过程不再需要“多模型套娃”。

这意味着什么？

这种“端到端”的语音通话优势可太大了：延迟大幅降低，不用等模型“生成文字再转语音”；语音表达更自然，能保留语气、停顿，甚至笑声；对话节奏也更贴近真人，避免“一问一答中间卡五秒”的尴尬。

对开发者来说，更是直接减负。你无需手动拼装 STT、LLM、TTS 三个模块，只要一个 API，就能把整条链路跑通。

在“AI 实时语音对话”这个方向上，OpenAI 可以称得上是“一枝独秀”了。

02｜GPT-Realtime 大升级

不只是语音模型，更是一个“拟人对话演员”。

伴随 Realtime API 一起登场的，是新版语音模型：GPT-Realtime。

GPT-Realtime 专为“语音互动”这个场景打造。

根据 OpenAI 官方博文总结一波升级点。

指令理解能力更强：比如你说“快一点，专业一点”，模型真的能“快一点、专业一点”地回复你。
非语言识别能力增强：笑声、语气、感叹等语气信号可以被正确理解。
语言混说无压力：中英文混讲、夹杂法语、西语，都很丝滑；
语音自然度大幅提升：声音更有情绪、更贴近真人；新加入的 Marin 和 Cedar 两种声音尤为出色；
听得懂 VIN 码和拼音：对于一些“AI 一直听不清”的拼读式信息，现在终于可以理解。

所以，这已经不再是“Siri 那样的语音助手”了。GPT-Realtime 完全可以胜任 AI 客服、电话销售、虚拟导游，甚至虚拟主播这些角色。

04｜GPT-Realtime 提升有多大？

在多个音频任务评测中，GPT-Realtime 均有所提升。

Big Bench Audio（推理能力）：82.8%
MultiChallenge（指令理解）：30.5%
ComplexFuncBench（函数调用）：66.5%

总结，和 2024 年最早的 gpt-4o-realtime-preview-2024-12-17 相比，提升可以说“很大”；但和最近的版本 gpt-4o-realtime-preview-2025-06-03 相比，提升相当有限，主要是打磨细节。

上图。

04｜一些新功能：图像输入、SIP 通话、函数调用、MCP

本次更新，更大的亮点在于为 GPT-Realtime 带来了不少很实用的功能。

图像输入：用户可以边聊天边上传图片，模型可以“看图说话”，比如读图、识图、OCR 等；
SIP 通话支持：支持对接电话网络、PBX、桌面电话，可以把 AI 接进真实电话场景；
函数调用升级：支持异步函数调用，能在“等接口返回”的同时继续聊天，不卡顿；
MCP（Model Context Protocol）：GPT-Realtime 支持 MCP 了！简单理解为“远程上下文服务器”，可以把外部工具能力直接连接到模型上，比如财务系统、CRM、第三方 API；
Prompt 可复用：对话模板、工具组合、角色设定等都可以保存复用，开发效率提升不少；

“模型即 Agent”，这一整套功能，已经很像一个“语音智能应用框架”了。

05｜更强，也更便宜了

能力升级，模型价格也降了。

OpenAI 这次同步宣布：GPT-Realtime 的 API 价格相较上一代下降了约 20%。

输入音频：32 美元/百万 tokens（缓存后更便宜）
输出语音：64 美元/百万 tokens

换算成更好理解的版本：输入音频约 0.019 美元/每分钟，输出音频约 0.077 美元/每分钟。

接入方式上，支持浏览器端（WebRTC）、服务器端（WebSocket）和 SIP 网络等多种接入方式，算是比较友好。

如果是企业或个人开发者，这个调用成本还是很有性价比的，至少比人工便宜太多。

如果是个人用户，还是直接使用 ChatGPT 的语音模式吧，量大管饱。

结语

OpenAI 还官宣了几家已经在使用 GPT-Realtime 的客户。

Zillow：AI 语音助手帮助用户按“生活方式”筛选房源，结合预算模型提供实时建议；
T-Mobile：用于 AI 电话客服；
Oscar Health、StubHub、Lemonade：覆盖健康、票务、保险等场景。

Zillow 的 AI 负责人表示：“就像在跟朋友聊天一样，这让买房、选贷款这些流程，都不再那么压抑和繁琐。”

这句话，其实也点明了 OpenAI 此次发布的真正野心：

让 AI 从信息工具，变成情绪接口。

我是木易，一个专注 AI 领域的技术产品经理，国内 Top2 本科 + 美国 Top10 CS 硕士。

相信 AI 是普通人的“外挂”，致力于分享 AI 全维度知识。这里有最新的 AI 科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”，用 AI 为你的未来加速。

精选推荐

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI 時代的白帽與黑帽 SEO：最佳實踐與趨勢解析

摘要：白帽SEO遵循搜索引擎指南，注重内容质量和用户体验，包括技术优化、关键词研究、内部链接等策略。黑帽SEO通过伪装、自动化内容等手段追求短期排名，但面临AI系统的严格惩罚。随着AI发展，白帽SEO可借助AI辅助内容优化、语义分析等工具提升效果，而黑帽技术如AI生成垃圾内容、伪装E-E-A-T信号等风险极高。建议通过合规测试优化SEO策略，避免高风险手段，以长期稳定排名为目标。（149字）