Supertonic:99M 参数跑赢大模型,端侧 TTS 迎来「平民化」时代
韩国Supertone公司开源的Supertonic 3是一款突破性的端侧TTS系统,仅99M参数却支持31种语言,能在树莓派等低功耗设备上实时合成语音。该系统采用创新的三组件架构,包含语音自编码器、文本到隐变量模块和时长预测器,通过LARoPE位置编码等技术实现高效文本-语音对齐。实测显示,其CPU推理速度可媲美GPU方案,在复杂文本规范化(如金融数字、技术单位)处理上优于主流云端TTS。工程方
摘要:2026 年 4 月,韩国 AI 音频公司 Supertone 开源了 Supertonic 3——一个仅 99M 参数、基于 ONNX Runtime 的端侧 TTS 系统,支持 31 种语言,在树莓派上即可实时合成语音。本文从架构设计、性能对比、工程落地三个维度深度拆解这一项目,探讨端侧 TTS 的技术趋势与应用前景。
一、为什么我们需要「不联网」的 TTS?
2026 年的 TTS 赛道可谓百花齐放:OpenAI 的 TTS-1、Google 的 Gemini Flash TTS、ElevenLabs 的 Flash v2.5、阶跃星辰的 StepAudio 2.5……但这些方案有一个共同的硬伤——全部依赖云端 API。
云端 TTS 的三大痛点:
| 痛点 | 具体表现 |
|---|---|
| 隐私风险 | 用户文本数据上传至第三方服务器,医疗、金融、法律等敏感场景难以合规 |
| 延迟与成本 | 网络往返 + API 调用费用,大规模文本朗读场景成本不可控 |
| 离线不可用 | 无网络环境(飞行模式、偏远地区、车载场景)完全无法使用 |
Supertonic 的回答很直接:把 TTS 做到你的设备上,不需要云。
二、Supertonic 3 核心架构解析
Supertonic 的技术论文 arXiv:2503.23108 描述了一套精心设计的三组件架构。
版本说明:论文中描述的 SupertonicTTS 基础架构参数量为 44M;当前开源的 Supertonic 3 版本经过迭代扩展,公开 ONNX 资产约 99M 参数。
2.1 整体流水线
原始文本 → [文本编码器] → [Text-to-Latent 流匹配模块] → [语音自解码器] → WAV 音频
↑
[时长预测器]
三个核心组件各司其职:
① 语音自编码器(Speech Autoencoder)
- 将语音波形压缩到低维连续隐空间
- 对隐变量进行时间维度压缩,大幅降低序列长度
- 使用 ConvNeXt 块作为骨干网络,兼顾表达能力与推理效率
② 文本到隐变量模块(Text-to-Latent)
- 基于 Flow Matching(流匹配)实现文本到语音隐空间的映射
- 直接操作原始字符级文本,无需 G2P(字素到音素)转换模块
- 使用 Cross-Attention 进行文本-语音对齐,省去外部对齐器
③ 话语级时长预测器(Utterance-Level Duration Predictor)
- 预测整句话的时长分布,而非逐音素时长
- 简化了传统 TTS 中复杂的时长建模流程
2.2 关键技术创新
Length-Aware RoPE(LARoPE) arXiv:2509.11084
传统 TTS 在 Cross-Attention 中使用标准位置编码,但文本和语音序列长度差异巨大,导致对齐困难。LARoPE 提出了一种长度感知的旋转位置编码,根据序列实际长度动态调整位置编码的频率基,显著改善了文本-语音的对齐质量。
Context-Sharing Batch Expansion
训练 TTS 模型时,同一文本需要与不同语音配对。该技术让同一文本的多个语音样本共享文本编码结果,在几乎不增加内存和 I/O 开销的前提下,加速损失收敛并稳定文本-语音对齐。
Self-Purifying Flow Matching arXiv:2509.19091
流匹配模型在训练时容易受到噪声标签的影响。Supertonic 引入自净化机制,在训练过程中自动识别并降权不可靠的样本,提升模型在真实数据上的鲁棒性。
2.3 模型参数量对比
| 模型 | 参数量 | 是否支持端侧部署 |
|---|---|---|
| Supertonic 3 | ~99M | ✅ 原生支持 |
| CosyVoice 2 (阿里) | ~500M | ⚠️ 较勉强 |
| F5-TTS | 使用 DiT 架构,参数量大于 Supertonic | ❌ 需要 GPU |
| Bark (Suno) | 参数量达数十亿级别 | ❌ 需要 GPU |
99M 参数意味着:模型文件约 200MB(FP16),一张普通手机即可加载运行。
三、性能实测:小模型的「越级」表现
3.1 阅读准确率(WER/CER)
Supertonic 3 在多语言 WER(词错误率)/ CER(字错误率)评测中,与参数量大数倍的开源模型(如 VoxCPM2)处于同一竞争力区间。考虑到其仅为 99M 参数,这一结果令人印象深刻。
注:带星号的语言使用 CER 评测,其余使用 WER 评测。
3.2 推理速度:CPU 也能比肩 GPU
这是 Supertonic 最让人惊讶的地方:
- 树莓派:实时合成,RTF(实时因子)< 1
- Onyx Boox Go 6 电子阅读器:飞行模式下平均 RTF 0.3×(即 1 秒音频只需 0.3 秒生成)
- 桌面 CPU:推理速度可与许多基线模型在 A100 GPU 上的表现相媲美
- 内存占用:远低于同级大参数模型
这意味着什么?不需要 GPU,不需要云服务器,一台普通笔记本甚至电子阅读器就能流畅运行高质量 TTS。
3.3 文本规范化:真正的杀手级能力
Supertonic 3 在复杂文本规范化上的表现堪称碾压级:
| 测试场景 | Supertonic | ElevenLabs | OpenAI TTS-1 | Gemini Flash TTS | Microsoft |
|---|---|---|---|---|---|
| 金融表达($5.2M、$450K) | ✅ | ❌ | ❌ | ❌ | ❌ |
| 电话号码((212) 555-0142 ext. 402) | ✅ | ❌ | ❌ | ❌ | ❌ |
| 技术单位(2.3h、30kph) | ✅ | ❌ | ❌ | ❌ | ❌ |
以上对比数据来源于 Supertonic 官方 README 中的测试用例,各系统的音频样本可通过 官方 Demo 获取。
Supertonic 能正确将 $5.2M 读作 “five point two million dollars”,将 30kph 读作 “thirty kilometers per hour”——无需任何预处理或音标标注。而包括 ElevenLabs、OpenAI、Google、Microsoft 在内的主流 TTS 系统在此测试中均出现错误。
这一能力在实际应用中极为关键:新闻朗读、财报播报、导航指引等场景充斥着大量缩写、数字、单位,传统 TTS 往往需要在前端做大量文本预处理,而 Supertonic 直接在模型内部解决。
3.4 从 v2 到 v3 的进化
与 Supertonic 2 相比,v3 版本带来了:
- 语言覆盖:从 5 种扩展到 31 种
- 重复/跳读失败:显著减少
- 说话人相似度:在共享语言集上有所提升
- 接口兼容:保留 v2 兼容的公共 ONNX 接口,现有集成可无缝迁移
四、31 种语言支持
Supertonic 3 支持以下 31 种语言:
| 语系 | 语言 |
|---|---|
| 日耳曼语族 | English, German, Dutch, Swedish, Danish |
| 罗曼语族 | French, Spanish, Italian, Portuguese, Romanian |
| 斯拉夫语族 | Russian, Bulgarian, Czech, Slovak, Polish, Croatian, Slovenian, Ukrainian |
| 波罗的海语族 | Latvian, Lithuanian |
| 乌拉尔语族 | Finnish, Estonian, Hungarian |
| 亚洲语系 | Korean, Japanese, Vietnamese, Indonesian |
| 南亚语系 | Hindi |
| 闪含语系 | Arabic |
| 突厥语族 | Turkish |
| 希腊语系 | Greek |
注:以上按语系列出共 33 个语言代码。官方文档称支持"31 种语言",实际语言代码表中列出 33 个条目,可能对个别语种做了合并计算。
五、工程生态:从 Python 到 iOS 的全平台覆盖
Supertonic 3 的工程成熟度令人印象深刻,提供了 11 种语言/平台的官方示例:
| 平台 | 路径 | 特点 |
|---|---|---|
| Python | py/ |
最简上手路径,pip install supertonic 一行搞定 |
| Node.js | nodejs/ |
服务端 JS 推理 |
| Browser (Web) | web/ |
WebGPU/WASM,纯浏览器端推理 |
| Java | java/ |
跨平台 JVM |
| C++ | cpp/ |
高性能原生推理 |
| C# | csharp/ |
.NET 生态,支持 9.0+ |
| Go | go/ |
Go 实现 |
| Swift | swift/ |
macOS 原生 |
| iOS | ios/ |
原生 iOS 应用 |
| Rust | rust/ |
内存安全的系统级实现 |
| Flutter | flutter/ |
跨平台移动端 |
快速体验(Python)
pip install supertonic
from supertonic import TTS
# 首次运行自动从 Hugging Face 下载模型
tts = TTS(auto_download=True)
style = tts.get_voice_style(voice_name="M1")
text = "A gentle breeze moved through the open window while everyone listened to the story."
wav, duration = tts.synthesize(text, voice_style=style, lang="en")
tts.save_audio(wav, "output.wav")
print(f"Generated {duration:.2f}s of audio")
三行核心代码,零配置,即可生成一段自然语音。
运行环境要求
- Python:需安装
supertonic包(ONNX Runtime 推理) - Go:需安装 ONNX Runtime C 库(macOS:
brew install onnxruntime) - Java:需 JDK(非 JRE),推荐 JDK 17+
- C#:目标 .NET 9,支持主版本前滚
- Browser:通过 onnxruntime-web 实现客户端推理
六、生态应用:已落地的真实场景
Supertonic 已经被集成到多个实际产品中:
| 项目 | 描述 | 平台 |
|---|---|---|
| TLDRL | 免费端侧 TTS 浏览器扩展,一键朗读网页 | Chrome |
| Read Aloud | 开源 TTS 浏览器扩展 | Chrome · Edge · GitHub |
| PageEcho | iOS 电子书阅读器 App | App Store |
| VoiceChat | 浏览器端语音对话 LLM 聊天机器人 | Demo · GitHub |
| OmniAvatar | 照片 + 语音生成说话人视频 | Demo |
| CopiloTTS | Kotlin 多平台 TTS SDK | GitHub |
| Voice Mixer | PyQt5 语音风格混合修改工具 | GitHub |
| Supertonic MNN | 基于阿里 MNN 框架的轻量化版本(FP32/FP16/INT8) | GitHub · PyPI |
| Transformers.js | Hugging Face 的 JS 推理库,已官方支持 Supertonic | GitHub PR · Demo |
| Pinokio | 一键本地部署工具(Mac/Windows/Linux) | Pinokio · GitHub |
值得注意的是,Transformers.js 的官方支持意味着 Web 开发者可以通过 WebGPU 在浏览器中直接运行 Supertonic,无需任何后端服务。
七、2026 端侧 TTS 赛道格局
将 Supertonic 放到 2026 年 TTS 技术的大背景下审视:
竞品对比
| 维度 | Supertonic 3 | CosyVoice 2 | ChatTTS | F5-TTS | OpenAI TTS-1 |
|---|---|---|---|---|---|
| 参数量 | ~99M | ~500M | 未公开精确数值 | DiT 架构,参数量较大 | 未公开 |
| 端侧部署 | ✅ 原生 | ⚠️ 较勉强 | ⚠️ 勉强 | ❌ 需 GPU | ❌ |
| 开源协议 | MIT(代码)+ OpenRAIL-M(模型) | Apache 2.0 | AGPLv3+ / CC BY-NC 4.0 | CC BY-NC-SA 4.0 | ❌ 闭源 |
| 语言数 | 31 | 中英日韩等 | 中英 | 中英等多语言 | 多语言 |
| 文本规范化 | 强(内置) | 中 | 弱 | 中 | 中 |
| 零样本克隆 | ✅ | ✅ | ✅ | ✅ | ❌ |
| ONNX 官方支持 | ✅ | ❌ | ❌ | ❌ | N/A |
| 表达标签 | ✅ <laugh> <breath> <sigh> |
❌ | ✅ 细粒度韵律控制 | ❌ | ❌ |
注:竞品参数量信息来源于各项目官方仓库及 ModelScope 发布页面。ChatTTS 和 F5-TTS 的精确参数量未在其 README 中明确标注,上表不做猜测。
趋势判断
2026 年端侧 TTS 呈现几个明确趋势:
- 模型小型化:从数十亿参数 → 1 亿级别,部署门槛大幅降低
- ONNX 成为通用推理格式:跨平台部署的最优解
- WebGPU 加速:浏览器端 TTS 从玩具变为实用
- 文本规范化内置化:前端预处理逐步被模型内化
- 隐私优先:GDPR/个保法驱动下,端侧推理成为刚需
Supertonic 在这五个方向上全部走在前列。
八、局限性与注意事项
客观来看,Supertonic 也存在一些局限:
- 零样本语音克隆质量:与 CosyVoice 2 等大参数模型相比,在极少量参考音频下的克隆相似度仍有差距
- 情感表达丰富度:虽然支持
<laugh>等标签,但与 ChatTTS 等专注于对话场景的细粒度韵律控制相比仍有提升空间 - 中文表现:虽然支持中文,但社区反馈显示中文自然度和韵律感仍有优化空间
- 模型许可:代码 MIT 开源,但模型本身使用 OpenRAIL-M 许可,商用需注意合规条款
- V3 ONNX 资产:目前公开的 ONNX 资产为固定音色版本,自定义音色需通过 Voice Builder 生成
九、快速上手指南
方式一:pip 安装(推荐)
pip install supertonic
from supertonic import TTS
tts = TTS(auto_download=True)
style = tts.get_voice_style(voice_name="M1")
wav, duration = tts.synthesize("Hello, world!", voice_style=style, lang="en")
tts.save_audio(wav, "output.wav")
方式二:从源码构建
git clone https://github.com/supertone-inc/supertonic.git
cd supertonic
# 下载模型资产(需 Git LFS)
git lfs install
git clone https://huggingface.co/Supertone/supertonic-3 assets
# 运行 Python 示例
cd py
uv sync
uv run example_onnx.py
方式三:在线体验
直接访问 Hugging Face 上的 Interactive Demo,无需安装任何依赖。
十、总结
Supertonic 3 的核心价值不在于「又一个 TTS 模型」,而在于它重新定义了端侧 TTS 的性价比下限:
- 99M 参数,模型文件轻量
- CPU 推理可比肩大模型 GPU 表现
- 31 种语言,文本规范化能力领先
- 11 个平台官方支持,从浏览器到 iOS
- 树莓派、电子阅读器均可实时运行
如果你正在做以下场景的开发,Supertonic 值得重点关注:
- 隐私敏感的本地语音应用(医疗、金融、法律)
- 浏览器端 TTS(WebGPU/WASM)
- 嵌入式/IoT 设备语音交互
- 大规模文本朗读(有声书、新闻播报)
- 低延迟实时语音对话系统
参考资料
| 资源 | 链接 |
|---|---|
| GitHub 仓库 | https://github.com/supertone-inc/supertonic |
| 模型下载 | https://huggingface.co/Supertone/supertonic-3 |
| 在线 Demo | https://huggingface.co/spaces/Supertone/supertonic-3 |
| SupertonicTTS 论文 | https://arxiv.org/abs/2503.23108 |
| LARoPE 论文 | https://arxiv.org/abs/2509.11084 |
| Self-Purifying FM 论文 | https://arxiv.org/abs/2509.19091 |
| Python SDK 文档 | https://supertone-inc.github.io/supertonic-py |
| Voice Builder | https://supertonic.supertone.ai/voice_builder |
用WiFi信号“看穿墙壁“?RuView开源项目深度解析:$9的ESP32实现无摄像头人体感知
更多推荐


所有评论(0)