谷歌Gemini语音模型12月份更新版与当前的应用

谷歌推出Gemini 2.5 Flash Native Audio实时语音智能体更新版，优化了函数调用、指令遵循和对话流畅度三大功能。该技术已集成至Gemini Live API，支持企业构建智能语音助手。应用场景包括Shopify的AI客服Sidekick、SightCall的AR远程协助、UWM的贷款助手Mia等。新版本能处理复杂视觉数据，理解用户意图和情感，实现跨场景自然对话，如Napste

阡陌2025

952人浏览 · 2025-12-18 17:41:54

阡陌2025 · 2025-12-18 17:41:54 发布

12月13日，谷歌公布了实时语音智能体更新版 Gemini 2.5 Flash Native Audio

在这里插入图片描述

1 更新内容

此次的更新在三个关键领域改进了Gemini 2.5原生音频功能，具体如下：

（1）更精细的函数调用：提升模型在触发外部函数时的可靠性。能够更准确地判断在对话过程中何时应获取实时信息，并能将这些数据无缝地融入音频响应中同时不会中断对话流程。

（2）稳健的指令遵循能力：提高用户对内容完整性的满意度。对开发者指令的遵循率达到90%(较之前的84%有所提升)，从而确保输出结果的可靠性。

（3）更流畅的对话：Gemini2.5 Flash NativeAudio能够更有效地从先前对话中提取上下文信息，从而营造出更为连贯的对话氛围。

在这里插入图片描述

该音频模型旨在无缝适应任何对话情境，且可通过实时信息检索，并提供多样化的对话体验。

2 谷歌Gemini的应用

当前它在谷歌Gemini的应用场景如下：

（1）用户可以通过视觉+语音交互的功能识别现实物品。让它协助识别某个具体信息的语音回复。如下图，抛给它一个菜单，然后可用语音询问它当前菜单是否含有鱼的菜品存在，然后在它进行了一系列的识别后也会用语音回答用户的答案。
在这里插入图片描述

（2）用户可以结合实时搜索功能，让它提供当下的旅行建议，例如用户在日本羽田机场有六个小时的转机时间，想去看高达雕像。询问它当前的时间是否足够，然后它就会根据实时搜索功能去给于用户的语音决策建议。

3 已并入Gemini Live API

而在Vertex AI中，即由最新 Gemini 2.5 Flash Native Audio 模型提供支持的 Gemini Live API，企业用户同样可以使用该模型进行构建实时语音智能体引导到自己的应用程序里面。

目前，谷歌Gemini Live API可以通过实时的倾听和立即理解用户的意图、屏幕背景、捕捉用户声音中的情感，并以类似人类的声音做出响应。旨在处理人类对话的瞬时复杂性，具体表现如下：

（1）可以在句子中途处理中断而不遗漏任何内容，确保自然的轮流发言。

（2）可以理解音高和节奏等声学线索，解析意图与语调。

（3）可以查看和讨论用户共享的复杂视觉数据(图表、实时视频、图表)，提供即时的上下文帮助。

4 Gemini Live API的企业应用

以下是部分企业用户通过 Gemini Live API去重新定义他们的客户体验示例：

（1）电商平台 Shopify开发的 Sidekick人工智能助手

这个助手可以提供个性化且远程支持服务，从而实时解决用户问题，并摒弃传统的工单处理流程。他们的使用体验是：用户在使用 Sidekick 后的一分钟内常常会忘记他们正在与人工智能交谈，且还会感谢这个机器人，这对使用AI智能客服的企业来说是最想看到的反馈。

（2）SightCall

这是一家专注于增强现实（AR）和视频通话技术的公司，提供实时远程协助解决方案，其平台允许企业通过视频和AR技术与客户进行互动，从而提高服务效率和客户体验。覆盖：

医疗保健：提供远程医疗咨询和支持

制造业：帮助技术人员进行设备维修和故障排除

保险：在索赔过程中提供实时评估和支持

他们通过 Gemini 2.5 Flash Native Audio 模型让企业内部的知识管理解决方案SightCall Xpert Knowledge系统成为实时专家，达到普通用户像得到专家的帮助一样，通过视觉技术更好地解决他们的问题。

在这里插入图片描述

（3）UWM 的人工智能助手 Mia
在这里插入图片描述

UWM（United Wholesale Mortgage）是一家美国的抵押贷款公司，主要通过与抵押贷款经纪人合作，提供各种类型的贷款产品，包括住宅和商业贷款。它的人工智能助手 Mia进一步通过集成 Gemini 2.5 Flash Native Audio 模型增强其语音功能，即负责与客户进行初步沟通、传递信息、安排后续联系，并提供必要的支持，从而提升了客户体验和服务效率。

（4）Napster Companion

Napster 是一家音乐流媒体服务平台，提供订阅服务和数字音乐销售，它通过使用 Gemini Live API 的视觉和音频功能Gemini 2.5 Flash Native Audio 模型构建AI伴侣 Companion，实现能看到用户电脑桌面屏幕乃至现实世界，并像真正的专家一样进行实时对话进行响应的自然对话，了解其用户其完整背景，助其用户释放创造力和专业知识。

下面是该公司的一个AI跨场景实时辅助能力，示例展示：

首先，用户让AI助手根据用户共享的屏幕内容提供具体的软件操作指令，（如用户通过自己的语音与AI交谈，让其帮忙指导创建一个excel表格的柱状图具体生成步骤）

在这里插入图片描述

接下来，用户跟AI进行语音交谈表示当前的屏幕excel表格柱状图完成了，现在想去处理一些关于Photoshop设计方面的事情，同时AI也会同步跳转更换其对应的头像和声音，让用户体验到像是真正更换了另外一位AI角色到来的情景。（同样，在这里，用户自己Photoshop创建的圆形，然后想让AI帮忙指导完成制作3D 球体的视图效果）

在这里插入图片描述

最后，现在用户现在表示饿了想顺便吃个早餐，然后该AI助手自动切换至了厨师头像的AI角色和声音，AI通过看到的用户桌面提供的食材，然后提供对应的烹饪语音建议，去引导用户当前的具体食物制作（如这里AI看到了洋葱、鸡蛋、黄油食材后，建议用户可以制作一份煎蛋卷，同时还附加没看到的牛奶建议以及解释其背后可以增加蓬松感的科学原理）

在这里插入图片描述

（5）Lumeris的健康人工智能助手 Tom
在这里插入图片描述

Lumeris 是一家专注于医疗保健领域的公司，提供医疗管理解决方案，帮助医疗机构和保险公司优化患者护理和降低成本。Lumeris 将他们的健康人工智能助手Tom进一步提升每次跟患者初级别互动的质量，以助于为患者护理制定新标准。

（6）Newo.ai

Newo.ai 是一家专注于人工智能和数据分析的公司，提供基于 AI 的解决方案，帮助企业优化运营和决策

它通过Gemini 2.5 Flash Native Audio 模型，让其公司的Al外呼智能体客服产品满足更高性能的对话，例如就算在嘈杂环境中也能识别主要说话者，以及语言灵活切换和声音自然且富有情感力表现的配置。

（7）11Sight的 Sentinel AI 语音智能体

在这里插入图片描述

11Sight是一家提供视频沟通和客户互动解决方案的公司，提供一个简单易用的平台，使企业能够通过视频、音频和聊天与客户互动，支持客户服务、销售和技术支持等多种场景它们利用Gemini 2.5 Flash Native Audio 模型提供以极低延迟快速开发语音 AI 智能体所需的企业级平台，提升其呼叫目标解决率。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

为什么更大的模型“学得更多“？——把“涌现“拆成容量、干扰与稀有任务记忆

2048 AI社区

CC-Switch不只是切换API：从GitHub更新日志看懂它的功能和底层原理

CC Switch：从配置切换器到AI编程统一管理平台摘要： CC Switch已从最初的Claude Code/Codex供应商切换工具，发展为功能全面的AI编程管理平台。它通过统一界面管理多个AI编程工具（Claude Code、Codex、Gemini CLI等）的配置，支持供应商切换、本地代理路由、跨工具能力同步等功能。核心演进包括：采用SSOT架构集中管理供应商数据、扩展支持6+工具、