gemini 3.1 TTS全部30 种语音实测

我测试了Gemini 3.1 Flash TTS的全部 30 种预置语音，涵盖英语、中文、西班牙语和日语。我测试了从[whispers]到再到的各种音频标签。我还测试了原生多说话人对话系统，它能让两个 AI 语音在没有后期处理的情况下进行自然对话。以下是我的发现——以及这 30 种语音中你应该为每种使用场景选择哪一种。

新缸中之脑

108人浏览 · 2026-04-20 16:00:38

新缸中之脑 · 2026-04-20 16:00:38 发布

gemini 3.1 TTS全部30 种语音实测

我测试了Gemini 3.1 Flash TTS的全部 30 种预置语音，涵盖英语、中文、西班牙语和日语。我测试了从 [whispers] 到 [laughs nervously] 再到 [slowly, with gravity] 的各种音频标签。我还测试了原生多说话人对话系统，它能让两个 AI 语音在没有后期处理的情况下进行自然对话。

以下是我的发现——以及这 30 种语音中你应该为每种使用场景选择哪一种。

1、Gemini 3.1 Flash TTS 到底是什么

Gemini 3.1 Flash TTS 是 Google DeepMind 的专用文本转语音模型，与你用于文本生成的 Gemini 3.1 Pro 和 Flash 模型是分开的。它是一个专用语音引擎，能将文本转换为高保真音频，同时接受两种创意指导：自然语言提示词（描述场景、说话者、情绪）和内联音频标签（直接嵌入文本中的精细控制）。

该模型于 2026 年 4 月 15 日发布，目前可通过 Gemini API、Google AI Studio（有免费额度）、Vertex AI 和 Google Vids 使用。模型 ID 为 gemini-3.1-flash-tts-preview。

关键参数一览：30 种预置语音、70+ 语言及地区变体、原生多说话人对话、200+ 音频标签、所有生成音频带有 SynthID 水印，定价为每百万输入 token $1.00，每百万音频输出 token $20.00（批处理模式 $0.50/$10.00——五折优惠）。

Artificial Analysis 将 Gemini 3.1 Flash TTS 放在了"最具吸引力象限"——高质量语音输出与低单次请求成本的交汇区。对于大规模部署的场景，这个定位比原始 Elo 排名更重要。

2、200+ 音频标签：这才是真正的重头戏

每个 TTS 服务都让你选择语音。有些让你调节速度和音调。Gemini 3.1 Flash TTS 做了根本不同的事情：它让你直接在文本中嵌入舞台指令，模型会像演员阅读剧本一样来解读它们。

这是我测试中的一个真实例子：

[neutral] Hello. This is an automated message from City Airways.
[short pause] Your flight, [slow] C A 4 2 7, has been updated.
[positive] It is now departing at 8:45 AM from Gate B 12.
[fast] Please proceed to the gate immediately, as boarding
will begin in five minutes.

这个单一的提示词生成的音频在六句话中变换了四次语调、节奏和能量。航班号上的 [slow] 标签使其清晰地逐字发音（这对于"CA427"需要毫不含糊的语音播报至关重要）。紧急信息上的 [fast] 标签营造出与人类登机口工作人员相同的效果。

我测试的标签包括：

情感： [happy]、[sad]、[angry]、[amused]、[enthusiasm]、[curiosity]、[determination]
节奏： [slow]、[fast]、[short pause]、[long pause]
风格： [whispers]、[laughs]、[sigh]、[laughs nervously]、[slowly, with gravity]、[upbeat, fast pace]
场景： [neutral]、[positive]、[worried]
关键洞察：标签是自由格式的自然语言。你不限于固定的列表。我尝试了 [speaking like a tired librarian at closing time]，模型准确地呈现了那种效果——更安静、更慢、略带不耐烦的语调。Google 确认有超过 200 个已验证标签，但模型能解读官方列表之外的有创意的自然语言标签。

市场上没有其他 TTS API 提供这种级别的内联控制。ElevenLabs 在请求级别有"风格"滑块和"稳定性"控制——你不能在句子中间改变语调。OpenAI 的 TTS-4o 有基本的指令遵循能力，但远达不到 200+ 精细标签的水平。这就是杀手级功能。

3、我测试了全部 30 种语音，以下是前 5 名

Gemini 3.1 Flash TTS 附带 30 种预置语音，每种都有独特的个性。名称取自神话和天文学：Kore、Puck、Charon、Aoede、Zephyr、Fenrir、Enceladus、Achernar 等等。我用相同的三段测试脚本（新闻广播、有声读物场景和客服电话）对每种语音进行了测试，评估了自然度、情感范围和标签响应性。

语音         | 特点                   | 最佳用途
------------|-------------------------|---------------------------
Kore        | 坚定、自信             | 商业、客服支持
Puck        | 活泼、充满活力         | 营销、播客
Aoede       | 轻松、自然             | 有声读物、旁白
Charon      | 信息丰富、清晰         | 新闻、文档
Zephyr      | 明亮、欢快             | 教育、儿童内容
Fenrir      | 激昂、动态             | 游戏、娱乐
Enceladus   | 平静、权威             | 企业、IVR 系统
Leda        | 温暖、对话感           | 聊天机器人、陪伴
Sadachbia   | 专业、克制             | 法律、医疗宣读
Vindemiatrix| 戏剧性、表现力强       | 讲故事、戏剧

大多数生产场景我的首选：Kore。 它处理音频标签转换最自然——从 [neutral] 切换到 [urgent] 不会出现我在其他语音中注意到的语调突变。如果你在构建需要活力的产品，Puck 是最好的"个性"语音。Aoede 是长篇旁白最安全的选择——它在 20 分钟以上的时间里不会像更具表现力的语音那样让听众感到疲劳。

我测试中最弱的语音是 Gacrux（即使使用表现力标签也很单调）和 Umbriel（在语言之间切换时节奏不一致）。对于多语言场景，坚持使用 Kore、Aoede 或 Charon——它们最优雅地处理了英语到中文的切换。

4、多说话人对话：原生且无缝

大多数 TTS 系统需要你分别生成每个说话人的音频，然后在后期制作中拼接音频文件。Gemini 3.1 Flash TTS 原生处理这个问题。你编写一个剧本风格的提示词，带说话人标签，模型在一次 API 调用中生成完整的多说话人音频文件。

prompt = """TTS the following conversation between Joe and Jane:
Joe: [enthusiastic] Hey, did you see the quarterly numbers?
Jane: [surprised] Wait, we actually hit the target?
Joe: [laughs] Not just hit it — crushed it by 12 percent.
Jane: [impressed] OK, that calls for coffee. My treat."""

模型为每个说话人分配不同的语音，在整个对话过程中保持一致的角色特征，并独立处理每个说话人的音频标签转换。Jane 的 [surprised] 不会渗透到 Joe 的 [laughs] 中。这是开箱即用的生产级多说话人生成。

对于开发者：多说话人模式使用 MultiSpeakerVoiceConfig 对象，你可以在其中为每个说话人名称分配特定的预置语音。你可以让 Joe 使用 Puck（充满活力），Jane 使用 Kore（自信），模型在整个对话中保持这些语音。

5、真实成本对比

以下是每月生成 10,000 小时音频的生产部署的竞争格局：

提供商                  | 每分钟成本    | 每月（1万小时）  | Elo 分数
------------------------|--------------|-----------------|----------
Gemini 3.1 Flash TTS    | $0.018/分钟  | $10,800         | 1,211
OpenAI TTS-4o-mini      | $0.015/分钟  | $9,000          | ~1,100
ElevenLabs v3           | $0.10+/分钟  | $60,000+        | ~1,280
Inworld AI TTS          | 可变         | 自定义定价       | 1,236

OpenAI 每分钟略便宜，但缺乏音频标签和多说话人对话功能。ElevenLabs 拥有最高的原始质量（Elo 1,280），但在规模化时成本高 5-6 倍——而且成本差距在更高音量时会进一步拉大。Inworld AI 在一个基准测试中得分最高，但专注于游戏领域，需要自定义企业定价。

Artificial Analysis 的定位说明了真正的情况：Gemini 3.1 Flash TTS 位于"最具吸引力象限"——高质量、低成本。对于大多数生产部署，为了 ElevenLabs 的边际 Elo 优势多付 5 倍的价格，在商业上不合理，尤其是 Google 提供了 ElevenLabs 在任何价格下都没有的 200+ 音频标签。

Google 还为非实时工作负载（如有声读物生成、播客预处理和训练数据创建）提供 50% 的批处理折扣（每百万 token $0.50/$10.00）。按批处理价格，生成 10,000 小时音频降至约 $5,400/月。

6、5 分钟快速上手

安装 Google GenAI SDK：

pip install google-genai

在 aistudio.google.com 获取免费 API 密钥，然后生成你的第一段音频：

from google import genai
from google.genai import types
import wave
client = genai.Client(api_key="YOUR_GEMINI_API_KEY")
response = client.models.generate_content(
    model="gemini-3.1-flash-tts-preview",
    contents="""[enthusiastic] Hey developers!
    [short pause] Google just launched the most controllable
    text to speech model ever built.
    [whispers] And it costs less than two cents per minute.""",
    config=types.GenerateContentConfig(
        response_modalities=["AUDIO"],
        speech_config=types.SpeechConfig(
            voice_config=types.VoiceConfig(
                prebuilt_voice_config=types.PrebuiltVoiceConfig(
                    voice_name="Kore"
                )
            )
        )
    )
)
# Save the audio to a WAV file
audio_data = response.candidates[0].content.parts[0].inline_data.data
with wave.open("output.wav", "wb") as wf:
    wf.setnchannels(1)
    wf.setsampwidth(2)
    wf.setframerate(24000)
    wf.writeframes(audio_data)
print("Audio saved to output.wav")

要尝试多说话人对话，将 voice_config 替换为 multi_speaker_voice_config：

response = client.models.generate_content(
    model="gemini-3.1-flash-tts-preview",
    contents="""TTS the following conversation:
    Alex: [curious] So what makes this TTS model different?
    Sam: [confident] Two hundred audio tags. Inline. Mid-sentence.
    Alex: [impressed] That is actually wild.""",
    config=types.GenerateContentConfig(
        response_modalities=["AUDIO"],
        speech_config=types.SpeechConfig(
            multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
                speaker_voice_configs=[
                    types.SpeakerVoiceConfig(
                        speaker="Alex",
                        voice_config=types.VoiceConfig(
                            prebuilt_voice_config=types.PrebuiltVoiceConfig(
                                voice_name="Puck"
                            )
                        )
                    ),
                    types.SpeakerVoiceConfig(
                        speaker="Sam",
                        voice_config=types.VoiceConfig(
                            prebuilt_voice_config=types.PrebuiltVoiceConfig(
                                voice_name="Kore"
                            )
                        )
                    )
                ]
            )
        )
    )
)

就是这样。两次 API 调用。一次用于带音频标签的单说话人，一次用于多说话人对话。无需拼接，无需后期处理，无需外部工具。

7、你到底应该使用哪种语音？

客服支持 / IVR： Kore（坚定、自信，标签转换处理流畅）或 Enceladus（平静、权威）

有声读物 / 长篇旁白： Aoede（轻松、自然——在长时间会话中不会让听众疲劳）

播客 / 营销： Puck（活泼、充满活力）或 Fenrir（激昂、动态）

新闻 / 文档： Charon（信息丰富、清晰——“NPR 风格的语音”）

多语言部署： Kore、Aoede 或 Charon（在 70+ 支持语言中跨语言一致性最好）

游戏 / 娱乐： Fenrir（动态）或 Vindemiatrix（戏剧性、表现力强）

儿童内容 / 教育： Zephyr（明亮、欢快）

8、结束语

Gemini 3.1 Flash TTS 不是纸面上质量最高的 TTS——ElevenLabs 以 69 分的 Elo 优势保持着这个桂冠。但通过盲测偏好测试衡量的质量排名并不能反映可控性，而可控性才是将演示与生产部署区分开来的关键。

200+ 音频标签系统是真正的范式转变。能够在文本中写入 [whispers] 或 [laughs nervously] 或 [speaking like a tired librarian at closing time] 并让模型正确解读，这是其他任何商业 TTS 都不提供的功能。对于需要 AI 语音能够表演而不仅仅是说话的开发者来说，这是第一个真正实现这一点的模型。

按 $0.018/分钟（或批处理模式 $0.009/分钟）的价格计算，除非你特别需要语音克隆（Gemini 3.1 Flash TTS 不支持），否则 ElevenLabs 很难证明其成本的合理性。对于其他所有场景——IVR、有声读物、播客、语音代理、多语言内容、互动叙事——Google 刚刚树立了新的性价比标杆。

该模型现在已在 Google AI Studio 上线，提供免费额度。去测试这 30 种语音，尝试音频标签，构建会说话的东西吧。

原文链接：gemini 3.1 TTS全部30 种语音实测 - 汇智网