OpenAI 全新发布 GPT-Realtime，AI 语音代理进入超逼真

2025年8月28日，OpenAI 正式宣布其 Realtime API 正式全面发布（General Availability），并推出了全新语音对话模型——gpt‑realtime。该模型将语音输入直接通过单一模型处理并生成语音输出，从而实现更低延迟和更自然流畅的对话体验。

Sinokap

1058人浏览 · 2025-09-01 02:54:48

Sinokap · 2025-09-01 02:54:48 发布

一、创新技术与核心优势

01 语音质量跃升

gpt‑realtime 发出的语音更加自然，语调、节奏和情绪表达更为丰富，能够精准执行诸如“以专业语气快速朗读”或“以法式腔调温和表达”等细致指令。

02 智能理解力与指令遵循显著提升

它能捕捉非语言提示（诸如笑声），中途切换语言，还能明确区分语气风格（如“干练专业”vs“亲切同理”）等。

03 函数调用能力更精准

在调用工具函数方面，gpt‑realtime 在触发时机、函数选择及参数传递上的准确度均有提升。

二、功能扩展：更强、更广、更实用

新版 Realtime API 除了 gpt‑realtime 之外，还增加了以下关键能力：

01. 支持远程 MCP 服务器

开发者可引入外部 Model Context Protocol 工具，无需自行对接逻辑，即可轻松扩展功能。MCP 服务器还可以配置权限和数据隔离，保证企业敏感信息不会直接暴露给模型。

典型应用场景

客服 / Call Center：MCP 服务器挂接 CRM 系统，Realtime 语音代理可即时查单、更新客户状态。
IT 运维：MCP 服务器接入监控平台，语音对话中可触发脚本或获取实时告警。
知识管理：MCP 服务器挂接企业内部知识库，用户通过自然语言语音提问，实时调取内部数据。

02. 图像输入能力

GPT-Realtime 现在支持在同一场实时会话里，和语音/文本一起发送图片、照片、截图。模型会把图片当作对话里的“补充上下文”，从而围绕你眼前的界面或场景进行理解、回答与推理（例如 “这张截图里写了什么？”“图表说了什么？”）。

下面是官方示例结构：

03. 支持 SIP 电话拨打

语音代理现在能够通过标准语音协议接入电话系统，这意味着 Realtime Agent 不再局限于“网页端”或“App 内语音”，而是能融入传统电信系统，覆盖更多客户接触点。

04. 新增两种声音

在原有的 Realtime 声音库基础上，OpenAI 新增了 Cedar 与 Marin 两种音色，同时对既有声音全面优化。新版声音在 自然度、情感表达、语速控制 方面表现更佳。

05. 成本下降 20%

相较之前的 gpt‑4o‑realtime‑preview 模型，gpt-realtime 的价格相较之前的 gpt-4o-realtime-preview 模型下降约 20%，在保持更高性能的同时，总拥有成本（TCO）下降，提升投资回报率（ROI）。

输入音频：从 $40 / 百万 tokens → $32 / 百万 tokens
输出音频：从 $80 / 百万 tokens → $64 / 百万 tokens

三、性能数据—真实benchmark 支撑

根据 Neowin 报道，gpt‑realtime 在多个音频评测基准上表现全面领先其前代模型，这表明其在语音指令理解、对话推理和工具调用等方面均有大幅跃进。

基准	gpt-realtime 成绩	前代模型成绩	提升幅度
Big Bench Audio	82.8%	65.6%	+26.3%
MultiChallenge Audio	30.5%	20.6%	+48.1%
ComplexFuncBench Audio	66.5%	49.7%	+33.8%

四、OpenAI再次引领人工智能行业

从技术到应用，GPT-Realtime 的发布再次证明了 OpenAI 在人工智能交互领域的领头作用。它不仅优化了语音对话的自然性和响应速度，还进一步降低了企业在使用实时 AI 语音代理时的成本门槛。对企业而言，这一更新将推动客服、培训、销售和智能助理等场景进入新一轮升级，帮助组织在客户体验和效率提升之间找到最佳平衡点。

作为对这一趋势的呼应，Sinokap 将在后续继续介绍我们在 AI咨询与企业IT服务方面的解决方案，帮助企业第一时间理解并落地这一前沿能力

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

从零开始学Linux进程控制:fork、wait、exec 详解

代码语言：javascriptAI代码解释。

2048 AI社区

无模型自适应预测控制 (MFAPC) 与迭代学习控制 (MFAILC) 的数值验证仿真程序

本文聚焦无模型自适应预测控制（MFAPC）与无模型自适应迭代学习控制（MFAILC）的数值验证仿真研究。通过构建基于紧致形式动态线性化（CFDL）的仿真程序，分别验证了MFAPC在非线性系统预测跟踪中的有效性，以及MFAILC在非线性系统迭代轨迹跟踪中的性能。仿真结果表明，两种方法均能有效处理非线性系统控制问题，为复杂工业过程的控制提供了新的思路。