gemini 3.1 TTS全部30 种语音实测

我测试了Gemini 3.1 Flash TTS的全部 30 种预置语音,涵盖英语、中文、西班牙语和日语。我测试了从 [whispers][laughs nervously] 再到 [slowly, with gravity] 的各种音频标签。我还测试了原生多说话人对话系统,它能让两个 AI 语音在没有后期处理的情况下进行自然对话。

以下是我的发现——以及这 30 种语音中你应该为每种使用场景选择哪一种。

1、Gemini 3.1 Flash TTS 到底是什么

Gemini 3.1 Flash TTS 是 Google DeepMind 的专用文本转语音模型,与你用于文本生成的 Gemini 3.1 Pro 和 Flash 模型是分开的。它是一个专用语音引擎,能将文本转换为高保真音频,同时接受两种创意指导:自然语言提示词(描述场景、说话者、情绪)和内联音频标签(直接嵌入文本中的精细控制)。

该模型于 2026 年 4 月 15 日发布,目前可通过 Gemini API、Google AI Studio(有免费额度)、Vertex AI 和 Google Vids 使用。模型 ID 为 gemini-3.1-flash-tts-preview

关键参数一览:30 种预置语音、70+ 语言及地区变体、原生多说话人对话、200+ 音频标签、所有生成音频带有 SynthID 水印,定价为每百万输入 token $1.00,每百万音频输出 token $20.00(批处理模式 $0.50/$10.00——五折优惠)。

Artificial Analysis 将 Gemini 3.1 Flash TTS 放在了"最具吸引力象限"——高质量语音输出与低单次请求成本的交汇区。对于大规模部署的场景,这个定位比原始 Elo 排名更重要。

2、200+ 音频标签:这才是真正的重头戏

每个 TTS 服务都让你选择语音。有些让你调节速度和音调。Gemini 3.1 Flash TTS 做了根本不同的事情:它让你直接在文本中嵌入舞台指令,模型会像演员阅读剧本一样来解读它们。

这是我测试中的一个真实例子:

[neutral] Hello. This is an automated message from City Airways.
[short pause] Your flight, [slow] C A 4 2 7, has been updated.
[positive] It is now departing at 8:45 AM from Gate B 12.
[fast] Please proceed to the gate immediately, as boarding
will begin in five minutes.

这个单一的提示词生成的音频在六句话中变换了四次语调、节奏和能量。航班号上的 [slow] 标签使其清晰地逐字发音(这对于"CA427"需要毫不含糊的语音播报至关重要)。紧急信息上的 [fast] 标签营造出与人类登机口工作人员相同的效果。

我测试的标签包括:

  • 情感: [happy][sad][angry][amused][enthusiasm][curiosity][determination]
  • 节奏: [slow][fast][short pause][long pause]
  • 风格: [whispers][laughs][sigh][laughs nervously][slowly, with gravity][upbeat, fast pace]
  • 场景: [neutral][positive][worried]
    关键洞察:标签是自由格式的自然语言。你不限于固定的列表。我尝试了 [speaking like a tired librarian at closing time],模型准确地呈现了那种效果——更安静、更慢、略带不耐烦的语调。Google 确认有超过 200 个已验证标签,但模型能解读官方列表之外的有创意的自然语言标签。

市场上没有其他 TTS API 提供这种级别的内联控制。ElevenLabs 在请求级别有"风格"滑块和"稳定性"控制——你不能在句子中间改变语调。OpenAI 的 TTS-4o 有基本的指令遵循能力,但远达不到 200+ 精细标签的水平。这就是杀手级功能。

3、我测试了全部 30 种语音,以下是前 5 名

Gemini 3.1 Flash TTS 附带 30 种预置语音,每种都有独特的个性。名称取自神话和天文学:Kore、Puck、Charon、Aoede、Zephyr、Fenrir、Enceladus、Achernar 等等。我用相同的三段测试脚本(新闻广播、有声读物场景和客服电话)对每种语音进行了测试,评估了自然度、情感范围和标签响应性。

语音         | 特点                   | 最佳用途
------------|-------------------------|---------------------------
Kore        | 坚定、自信             | 商业、客服支持
Puck        | 活泼、充满活力         | 营销、播客
Aoede       | 轻松、自然             | 有声读物、旁白
Charon      | 信息丰富、清晰         | 新闻、文档
Zephyr      | 明亮、欢快             | 教育、儿童内容
Fenrir      | 激昂、动态             | 游戏、娱乐
Enceladus   | 平静、权威             | 企业、IVR 系统
Leda        | 温暖、对话感           | 聊天机器人、陪伴
Sadachbia   | 专业、克制             | 法律、医疗宣读
Vindemiatrix| 戏剧性、表现力强       | 讲故事、戏剧

大多数生产场景我的首选:Kore。 它处理音频标签转换最自然——从 [neutral] 切换到 [urgent] 不会出现我在其他语音中注意到的语调突变。如果你在构建需要活力的产品,Puck 是最好的"个性"语音。Aoede 是长篇旁白最安全的选择——它在 20 分钟以上的时间里不会像更具表现力的语音那样让听众感到疲劳。

我测试中最弱的语音是 Gacrux(即使使用表现力标签也很单调)和 Umbriel(在语言之间切换时节奏不一致)。对于多语言场景,坚持使用 Kore、Aoede 或 Charon——它们最优雅地处理了英语到中文的切换。

4、多说话人对话:原生且无缝

大多数 TTS 系统需要你分别生成每个说话人的音频,然后在后期制作中拼接音频文件。Gemini 3.1 Flash TTS 原生处理这个问题。你编写一个剧本风格的提示词,带说话人标签,模型在一次 API 调用中生成完整的多说话人音频文件。

prompt = """TTS the following conversation between Joe and Jane:
Joe: [enthusiastic] Hey, did you see the quarterly numbers?
Jane: [surprised] Wait, we actually hit the target?
Joe: [laughs] Not just hit it — crushed it by 12 percent.
Jane: [impressed] OK, that calls for coffee. My treat."""

模型为每个说话人分配不同的语音,在整个对话过程中保持一致的角色特征,并独立处理每个说话人的音频标签转换。Jane 的 [surprised] 不会渗透到 Joe 的 [laughs] 中。这是开箱即用的生产级多说话人生成。

对于开发者:多说话人模式使用 MultiSpeakerVoiceConfig 对象,你可以在其中为每个说话人名称分配特定的预置语音。你可以让 Joe 使用 Puck(充满活力),Jane 使用 Kore(自信),模型在整个对话中保持这些语音。

5、真实成本对比

以下是每月生成 10,000 小时音频的生产部署的竞争格局:

提供商                  | 每分钟成本    | 每月(1万小时)  | Elo 分数
------------------------|--------------|-----------------|----------
Gemini 3.1 Flash TTS    | $0.018/分钟  | $10,800         | 1,211
OpenAI TTS-4o-mini      | $0.015/分钟  | $9,000          | ~1,100
ElevenLabs v3           | $0.10+/分钟  | $60,000+        | ~1,280
Inworld AI TTS          | 可变         | 自定义定价       | 1,236

OpenAI 每分钟略便宜,但缺乏音频标签和多说话人对话功能。ElevenLabs 拥有最高的原始质量(Elo 1,280),但在规模化时成本高 5-6 倍——而且成本差距在更高音量时会进一步拉大。Inworld AI 在一个基准测试中得分最高,但专注于游戏领域,需要自定义企业定价。

Artificial Analysis 的定位说明了真正的情况:Gemini 3.1 Flash TTS 位于"最具吸引力象限"——高质量、低成本。对于大多数生产部署,为了 ElevenLabs 的边际 Elo 优势多付 5 倍的价格,在商业上不合理,尤其是 Google 提供了 ElevenLabs 在任何价格下都没有的 200+ 音频标签。

Google 还为非实时工作负载(如有声读物生成、播客预处理和训练数据创建)提供 50% 的批处理折扣(每百万 token $0.50/$10.00)。按批处理价格,生成 10,000 小时音频降至约 $5,400/月

6、5 分钟快速上手

安装 Google GenAI SDK:

pip install google-genai

aistudio.google.com 获取免费 API 密钥,然后生成你的第一段音频:

from google import genai
from google.genai import types
import wave
client = genai.Client(api_key="YOUR_GEMINI_API_KEY")
response = client.models.generate_content(
    model="gemini-3.1-flash-tts-preview",
    contents="""[enthusiastic] Hey developers!
    [short pause] Google just launched the most controllable
    text to speech model ever built.
    [whispers] And it costs less than two cents per minute.""",
    config=types.GenerateContentConfig(
        response_modalities=["AUDIO"],
        speech_config=types.SpeechConfig(
            voice_config=types.VoiceConfig(
                prebuilt_voice_config=types.PrebuiltVoiceConfig(
                    voice_name="Kore"
                )
            )
        )
    )
)
# Save the audio to a WAV file
audio_data = response.candidates[0].content.parts[0].inline_data.data
with wave.open("output.wav", "wb") as wf:
    wf.setnchannels(1)
    wf.setsampwidth(2)
    wf.setframerate(24000)
    wf.writeframes(audio_data)
print("Audio saved to output.wav")

要尝试多说话人对话,将 voice_config 替换为 multi_speaker_voice_config

response = client.models.generate_content(
    model="gemini-3.1-flash-tts-preview",
    contents="""TTS the following conversation:
    Alex: [curious] So what makes this TTS model different?
    Sam: [confident] Two hundred audio tags. Inline. Mid-sentence.
    Alex: [impressed] That is actually wild.""",
    config=types.GenerateContentConfig(
        response_modalities=["AUDIO"],
        speech_config=types.SpeechConfig(
            multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
                speaker_voice_configs=[
                    types.SpeakerVoiceConfig(
                        speaker="Alex",
                        voice_config=types.VoiceConfig(
                            prebuilt_voice_config=types.PrebuiltVoiceConfig(
                                voice_name="Puck"
                            )
                        )
                    ),
                    types.SpeakerVoiceConfig(
                        speaker="Sam",
                        voice_config=types.VoiceConfig(
                            prebuilt_voice_config=types.PrebuiltVoiceConfig(
                                voice_name="Kore"
                            )
                        )
                    )
                ]
            )
        )
    )
)

就是这样。两次 API 调用。一次用于带音频标签的单说话人,一次用于多说话人对话。无需拼接,无需后期处理,无需外部工具。

7、你到底应该使用哪种语音?

客服支持 / IVR: Kore(坚定、自信,标签转换处理流畅)或 Enceladus(平静、权威)

有声读物 / 长篇旁白: Aoede(轻松、自然——在长时间会话中不会让听众疲劳)

播客 / 营销: Puck(活泼、充满活力)或 Fenrir(激昂、动态)

新闻 / 文档: Charon(信息丰富、清晰——“NPR 风格的语音”)

多语言部署: Kore、Aoede 或 Charon(在 70+ 支持语言中跨语言一致性最好)

游戏 / 娱乐: Fenrir(动态)或 Vindemiatrix(戏剧性、表现力强)

儿童内容 / 教育: Zephyr(明亮、欢快)

8、结束语

Gemini 3.1 Flash TTS 不是纸面上质量最高的 TTS——ElevenLabs 以 69 分的 Elo 优势保持着这个桂冠。但通过盲测偏好测试衡量的质量排名并不能反映可控性,而可控性才是将演示与生产部署区分开来的关键。

200+ 音频标签系统是真正的范式转变。能够在文本中写入 [whispers][laughs nervously][speaking like a tired librarian at closing time] 并让模型正确解读,这是其他任何商业 TTS 都不提供的功能。对于需要 AI 语音能够表演而不仅仅是说话的开发者来说,这是第一个真正实现这一点的模型。

按 $0.018/分钟(或批处理模式 $0.009/分钟)的价格计算,除非你特别需要语音克隆(Gemini 3.1 Flash TTS 不支持),否则 ElevenLabs 很难证明其成本的合理性。对于其他所有场景——IVR、有声读物、播客、语音代理、多语言内容、互动叙事——Google 刚刚树立了新的性价比标杆。

该模型现在已在 Google AI Studio 上线,提供免费额度。去测试这 30 种语音,尝试音频标签,构建会说话的东西吧。


原文链接:gemini 3.1 TTS全部30 种语音实测 - 汇智网

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐