随着对话式AI技术的飞速发展,语音正成为人机交互中最直观、高效的方式,越来越多企业借助语音技术优化客户体验、降低运营成本并实现业务扩展。

在近期落幕的Microsoft Ignite 2025大会上,微软正式发布Azure语音服务(国际版)系列全新升级,为开发者和企业解锁更多创新可能,全面提升语音、翻译与对话式AI的交互体验。

Voice Live API全面商用 赋能智能体“自然发声”

此次升级的核心亮点之一是Voice Live API(国际版)正式开放商用。作为统一的实时“语音转语音”接口,该API可快速为智能助手、客服机器人等智能体注入自然语言输入与高拟真语音输出能力,实现“开口说话”的智能交互。

  • 开发者可从10余款生成式AI驱动的基础大模型(含最新GPT Realtime、GPT Realtime Mini)中灵活选择,或直接加载Microsoft Foundry部署的自定义模型;
  • 支持140余种语言/方言精准识别与数百种多语种自然语音输出,包括覆盖150+地区的HD V2高保真声音;
  • 通过Azure Semantic VAD智能语音活动检测技术优化对话流畅度,减少尬停抢话;
  • 结合Photo Avatar(图片数字人)功能,仅需一张照片即生成富有表现力的虚拟形象,打造品牌专属的语音助手形象。

自公共预览版上线以来,已有数千家企业客户对Voice Live API开展深度测试,应用场景广泛覆盖智能客服、车载语音助手、政务服务智能体、员工支持助手、在线教育智能导师、对话式聊天助手等领域。

Live Interpreter正式上线 打造多语种实时沟通新体验

微软正式推出 Live Interpreter API(同声传译),该 API 面向开发者,开放了与 Microsoft Teams 同源的底层模型与技术,可支持保留个人音色的实时语音到语音翻译。该API核心能力包括:

  • 具备超低延迟,对话流畅度媲美真人水准;
  • 支持自动持续语种检测,输入语言覆盖Azure Speech全量76种,输出语言目前支持英语、德语、西班牙语、法语、意大利语、日语、韩语、葡萄牙语和简体中文,后续将持续扩充;
  • 可实现个性化音色复刻,完美保留说话人的语气与风格,让跨语言对话更自然真实。

Live Interpreter API部署便捷,开发者仅需几行代码即可为企业各类场景添加“跨语种沟通能力”,适用于呼叫中心实时翻译通话、多语言线上会议、电商或电竞直播字幕翻译等场景。目前,OPPO、Caption Connect等企业已率先在实际业务中应用该技术。

LLM Speech进入公共预览 大模型驱动高效语音转录翻译

微软宣布LLM Speech(国际版)正式进入公共预览阶段。这是一款基于大语言模型打造的全新API,可实现更高水平的音频文件转录与翻译,核心能力包括精准的上下文理解转录与语音翻译、多语言处理、输出文本提示词调优,以及说话人分离、字词时间戳标记、多声道音频处理等丰富增强功能,同时具备极速推理响应优势。

LLM Speech API适用于会议纪要整理、呼叫中心坐席辅助、语音留言转录、预制音频字幕生成等多种业务场景。目前,安克创新(Anker)等企业已率先引入该API,在出海业务场景中将其应用于最新应用与设备的大模型语音功能模块。

Photo Avatar公开预览 一张照片生成“会说话”的虚拟形象

微软在Ignite 2025大会上同步发布Photo Avatar(图片数字人)公共预览版,该功能基于Microsoft Research的VASA-1模型打造,进一步拓展了Azure在智能语音与数字人领域的技术边界。此前,Azure Speech Voice Live API已支持基于Video Avatar(视频数字人)的智能体开发,而Photo Avatar的引入让“个性化语音智能体”开发更便捷高效。

与传统Video Avatar不同,Photo Avatar聚焦头部形象,重点强化面部表情与情绪传达;同时无需冗长的视频采集和复杂的模型训练流程,仅凭一张图片即可即时生成,实现“即用即得”。该功能提供标准版和定制版两种模式:

  • 标准版预置30款即开即用的标准图片数字人,无需额外配置;
  • 定制版支持企业基于自身品牌形象创建专属数字人,并可通过Microsoft Foundry(国际版)或API集成接入现有应用与智能体系统。

Photo Avatar不仅适用于语音智能助手场景,还可应用于视频内容生成,助力开发者轻松制作具有视觉表现力的“真人出镜式”讲述视频。目前,巴林国家航空公司Gulf Air已在飞行员、乘务人员及工程师的培训项目中采用Photo Avatar作为虚拟助教,显著提升了培训学习体验。

开发者体验全面升级 提升开发效率与灵活性

为进一步降低开发门槛,微软优化了开发者体验,开发者可在模型目录中轻松访问和部署各类Azure Speech API,包括语音转文本(Speech to Text)、文本转语音(Text to Speech)、文本转虚拟形象语音(Text to Speech Avatar,目前仅在国际版Azure可用)以及Voice Live等。

此外,Microsoft Foundry(国际版)工具目录全面扩展,新增Azure Speech MCP Server,让开发者可通过“工具”形式将语音能力引入智能体,助力构建功能更强大的智能助手。

领驭科技深耕AI领域的创新与实践落地,持续关注微软&OpenAI、GPT、DeepSeek等主流大语言模型(LLM)的前沿动态。我们聚焦技术迭代细节,拆解应用落地逻辑,从底层算法演进到产业级实践案例,全方位梳理大语言模型的发展脉络。期待与关注AI发展的伙伴交流探讨,欢迎持续关注。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐