OpenAI 全新发布 GPT-Realtime,AI 语音代理进入超逼真
2025年8月28日,OpenAI 正式宣布其 Realtime API 正式全面发布(General Availability),并推出了全新语音对话模型——gpt‑realtime。该模型将语音输入直接通过单一模型处理并生成语音输出,从而实现更低延迟和更自然流畅的对话体验。
2025年8月28日,OpenAI 正式宣布其 Realtime API 正式全面发布(General Availability),并推出了全新语音对话模型——gpt‑realtime。该模型将语音输入直接通过单一模型处理并生成语音输出,从而实现更低延迟和更自然流畅的对话体验。
一 、创新技术与核心优势

01 语音质量跃升
gpt‑realtime 发出的语音更加自然,语调、节奏和情绪表达更为丰富,能够精准执行诸如“以专业语气快速朗读”或“以法式腔调温和表达”等细致指令。
02 智能理解力与指令遵循显著提升
它能捕捉非语言提示(诸如笑声),中途切换语言,还能明确区分语气风格(如“干练专业”vs“亲切同理”)等。
03 函数调用能力更精准
在调用工具函数方面,gpt‑realtime 在触发时机、函数选择及参数传递上的准确度均有提升。
二、功能扩展:更强、更广、更实用

新版 Realtime API 除了 gpt‑realtime 之外,还增加了以下关键能力:
01. 支持远程 MCP 服务器
开发者可引入外部 Model Context Protocol 工具,无需自行对接逻辑,即可轻松扩展功能。MCP 服务器还可以配置权限和数据隔离,保证企业敏感信息不会直接暴露给模型。

典型应用场景
-
客服 / Call Center:MCP 服务器挂接 CRM 系统,Realtime 语音代理可即时查单、更新客户状态。
-
IT 运维:MCP 服务器接入监控平台,语音对话中可触发脚本或获取实时告警。
-
知识管理:MCP 服务器挂接企业内部知识库,用户通过自然语言语音提问,实时调取内部数据。
02. 图像输入能力
GPT-Realtime 现在支持在同一场实时会话里,和语音/文本一起发送图片、照片、截图。模型会把图片当作对话里的“补充上下文”,从而围绕你眼前的界面或场景进行理解、回答与推理(例如 “这张截图里写了什么?”“图表说了什么?”)。
下面是官方示例结构:

03. 支持 SIP 电话拨打
语音代理现在能够通过标准语音协议接入电话系统,这意味着 Realtime Agent 不再局限于“网页端”或“App 内语音”,而是能融入传统电信系统,覆盖更多客户接触点。
04. 新增两种声音
在原有的 Realtime 声音库基础上,OpenAI 新增了 Cedar 与 Marin 两种音色,同时对既有声音全面优化。新版声音在 自然度、情感表达、语速控制 方面表现更佳。

05. 成本下降 20%
相较之前的 gpt‑4o‑realtime‑preview 模型,gpt-realtime 的价格相较之前的 gpt-4o-realtime-preview 模型下降约 20%,在保持更高性能的同时,总拥有成本(TCO)下降,提升投资回报率(ROI)。
-
输入音频:从 $40 / 百万 tokens → $32 / 百万 tokens
-
输出音频:从 $80 / 百万 tokens → $64 / 百万 tokens
三、性能数据—真实benchmark 支撑
根据 Neowin 报道,gpt‑realtime 在多个音频评测基准上表现全面领先其前代模型,这表明其在语音指令理解、对话推理和工具调用等方面均有大幅跃进。
|
基准 |
gpt-realtime 成绩 |
前代模型成绩 |
提升幅度 |
|---|---|---|---|
|
Big Bench Audio |
82.8% |
65.6% |
+26.3% |
|
MultiChallenge Audio |
30.5% |
20.6% |
+48.1% |
|
ComplexFuncBench Audio |
66.5% |
49.7% |
+33.8% |



四、OpenAI再次引领人工智能行业
从技术到应用,GPT-Realtime 的发布再次证明了 OpenAI 在人工智能交互领域的领头作用。它不仅优化了语音对话的自然性和响应速度,还进一步降低了企业在使用实时 AI 语音代理时的成本门槛。对企业而言,这一更新将推动客服、培训、销售和智能助理等场景进入新一轮升级,帮助组织在客户体验和效率提升之间找到最佳平衡点。
作为对这一趋势的呼应,Sinokap 将在后续继续介绍我们在 AI咨询与企业IT服务方面的解决方案,帮助企业第一时间理解并落地这一前沿能力
更多推荐
所有评论(0)