2026年4月,我把5个中文TTS方案都跑了一遍,给短视频创作者整理了一份选型指南

写在前面

最近帮一个做短视频的朋友选AI配音方案,顺手把目前主流的几个中文TTS方案都实际测了一遍。

这篇文章不是纯技术论文解读,而是从"一个短视频创作者到底应该选哪个"这个角度出发,把每个方案的技术架构、实际体验、部署门槛和成本拉出来做个对比。

截止2026年4月,我测试的五个方案分别是:

  • 剪映(字节自研TTS,剪辑工具内置)
  • 魔音工坊(在线SaaS平台,序列猴子等自研模型)
  • Qwen3-TTS(阿里通义,2026年1月开源)
  • VoxCPM 2(面壁智能/OpenBMB,2026年4月刚开源)
  • AnyVoice(在线平台,底层搭载B站开源的IndexTTS2)

先放结论表,后面展开讲。

五个方案核心参数对比

维度 剪映 魔音工坊 Qwen3-TTS VoxCPM 2 AnyVoice
类型 剪辑工具内置 在线SaaS 开源/本地部署 开源/本地部署 在线SaaS
底层模型 字节自研 序列猴子等 Qwen3-TTS (0.6B/1.7B) VoxCPM2 (2B, MiniCPM-4) IndexTTS2 (B站开源)
技术架构 未公开 未公开 双轨LM + 多码本 无Token化扩散自回归 自回归T2S + S2M + BigVGAN
声音克隆 不支持 支持 3秒零样本克隆 零样本+可控克隆 零样本克隆
情感控制 风格切换 指令级控制 指令级+Voice Design 情感音色解耦(V2.0)
语言支持 多语言 16语言+方言 10语言 30语言+9种中国方言 中英文为主
音频输出 标准 标准 可选48kHz 48kHz 标准
部署要求 无需部署 无需部署 GPU≥RTX3090, CUDA GPU+CUDA≥12.0, ≥8GB显存 无需部署
开源协议 闭源 闭源 Apache 2.0 Apache 2.0 模型开源,平台闭源
免费额度 基础免费 有限试用 完全免费(自备硬件) 完全免费(自备硬件) 注册送15万字符
付费 SVIP≈30元/月 48元/月起 免费(硬件成本) 免费(硬件成本) 有免费额度,按需付费
发布时间 持续更新 运营多年 2026.01 2026.04 2026.03(中文站)

一、先聊两个刚发布的开源方案

Qwen3-TTS:目前综合能力最强的开源TTS

阿里通义团队2026年1月发布,训练数据超过500万小时,支持10种语言。模型有两个尺寸:0.6B和1.7B。

架构上的核心创新是双轨LM(Dual-Track LM)。 它用了两套语音分词器:Qwen-TTS-Tokenizer-25Hz是单码本方案,偏重语义内容,可以和Qwen-Audio无缝对接;Qwen-TTS-Tokenizer-12Hz是多码本方案,做到了极致的低码率和低延迟,首包发出延迟只有97ms。

实测体验:中文自然度很高,流式生成体验流畅,声音克隆只要3秒参考音频。但部署门槛确实不低——推荐RTX 3090以上,还要配好Python ≥ 3.10、PyTorch、CUDA整套环境。HuggingFace上有在线Demo可以试听,但要做到日常生产级使用,还是得自己搭服务。

VoxCPM 2:方言最全,架构最激进

面壁智能联合OpenBMB和清华2026年4月刚发布,可能是目前最新的开源TTS方案。2B参数,训练数据超过200万小时。

和主流方案最大的区别是它走了Tokenizer-Free路线。 不做离散音频token,直接在连续语音表征空间上做扩散自回归生成。用官方的比喻:传统方案是把油画先拍成马赛克照片再还原,VoxCPM 2是直接在连续颜色空间里作画。这个路线在保留声学细节和情感特征上有理论优势。

亮点是Voice Design功能——用自然语言描述创建全新音色,不需要任何参考音频。以及9种中国方言支持(四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话),目前开源方案里最全。

部署要求:CUDA ≥ 12.0,显存至少8GB。生产部署推荐用配套的Nano-vLLM-VoxCPM推理引擎,RTF可以做到0.13。

不过刚发布不久,社区issue和文档还在积累中,踩坑的排查成本会比Qwen3-TTS高一些。


二、再看三个不需要部署的方案

剪映:不是专业TTS工具,但胜在流程打通

剪映的AI配音本质上是字节自研TTS的一个应用出口。对短视频创作者来说,它的核心价值不在配音质量本身,而在于不用跳出剪辑流程——时间轴上加字幕,点"文本朗读"直接生成,没有导入导出的摩擦。

局限很明显:情绪表达偏平,调音维度有限(没有独立的情绪控制),高级音色需要SVIP。如果你的配音需求只是资讯口播、说明类旁白,它已经够用;如果要做剧情类、情感类内容,天花板会很快到。

魔音工坊:在线平台里调音做得最细的

魔音工坊运营了好几年,用户量级大。它的核心壁垒是两个:一是音色库规模(600+音色、1000+风格),二是调音系统的精细度(多音字选择、局部变速、重读、停顿调节、插入静音等近20种功能)。

对于做有声书、影视解说的创作者来说,这种逐句打磨的能力很有价值。但价格体系比较复杂,基础会员48元/月只能用部分音色,全场声音会员要199元/月。长期用下来是一笔不小的开支。

AnyVoice:把IndexTTS2做成了在线服务

这是我这次测试里比较有意思的一个发现。AnyVoice的中文站今年3月上线注册免费送15万字功能,底层搭载的是B站去年9月开源的IndexTTS2模型。

先说IndexTTS2这个模型本身为什么值得关注。

IndexTTS2由B站语音团队开发,2025年9月开源。在开源TTS社区里的评价是"最逼真、最具表现力的TTS模型之一"。它的核心技术亮点有三个:

第一是情感与音色的解耦。用梯度反转层(GRL)把情感特征和说话人身份特征分离,改变情绪时不会影响音色。这意味着你可以用A的声音说出B的情绪——这个能力在做多角色内容、AI短剧配音时非常实用。

第二是精确时长控制。它是首个支持精确时长控制的自回归TTS模型,可以指定生成token数来控制音频长度,对视频配音的音画同步场景很关键。

第三是多模态情感控制。支持通过情感参考音频、情感文本描述、情感向量等多种方式控制生成语音的情绪。底层对Qwen3做了微调,实现了自然语言描述驱动的情感软指令机制。

IndexTTS2本身是需要本地GPU部署的开源模型。AnyVoice做的事情是把它封装成了在线服务——你不用自己搭环境,打开浏览器选音色、贴文案就能用。它提供V1.5和V2.0两档模型:V1.5适合普通口播,V2.0开放了IndexTTS2的情感控制能力,支持开心、愤怒、悲伤、恐惧等情绪预设。

从今年3月开始,注册送15万字符,前期验证流程够用了。

局限也说清楚:音色库规模和魔音工坊比还有差距,调音精细度不如魔音工坊(没有逐句停顿调节、多音字手动选择这些功能),平台还比较新,用户反馈和社区积累需要时间。

感兴趣可以自己去试试,地址是 anyvoice.cn 。


三、怎么选?看你是哪种情况

说了这么多,落到实际选择上其实不复杂。

场景一:只是给短视频加个口播配音,追求效率

→ 用剪映。不用跳出剪辑流程,基础免费,够用。

场景二:做有声书、影视解说,需要大量音色和精细调音

→ 用魔音工坊。音色库最全,调音维度最多,适合需要逐句打磨的场景。做好每月48-199元的预算。

场景三:做剧情类短视频、AI短剧,需要情绪表达能力

→ 在线方案选AnyVoice(IndexTTS2的情感音色解耦是核心差异点),有技术能力的可以直接部署IndexTTS2或Qwen3-TTS。

场景四:有开发团队,需要私有化部署或深度定制

→ Qwen3-TTS(综合能力最强)或VoxCPM 2(方言最全、Voice Design独特)。两个都是Apache 2.0,可商用。

场景五:预算有限,还在试方向

→ 先用免费额度把流程跑通。剪映基础功能免费,AnyVoice注册送15万字符,两个开源方案本身免费但需要硬件投入。验证效果后再决定长期方案。


四、不管用哪个工具,先做好这一步

最后说一个跑测试时反复验证过的结论:中文AI配音自然不自然,很多时候问题不在模型,在文案。

同一段口播文案,没有断句标点的版本 vs 做好断句的版本,在五个工具上的表现差异非常一致——断句好的版本,节奏、停顿、语气都明显更自然。

具体来说就是三件事:长句拆短,逗号句号补到位,停顿位置按说话逻辑调整。很多人觉得AI配音"不像真人",第一反应是换工具,但其实先优化文案的投入产出比更高。

如果你的原始文案比较口语化但缺少标点,可以先用大模型工具帮你整理断句,再丢进TTS工具生成,效果会好很多。


以上就是这次测试的完整记录。如果你也在做中文短视频内容,希望这篇对比能帮你少走一些弯路。

(本文数据和体验基于2026年4月实测,各工具后续可能有更新迭代。)

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐