刚开源的VoxCPM火了！零样本克隆声音、上下文感知说话，一行代码就能用

VoxCPM开源语音合成模型引发热议，仅需几秒音频即可高精度克隆人声，完美复刻音色、语气和发音细节。该模型采用端到端扩散自回归架构，支持中英双语零样本克隆和语境感知合成，能自动调整新闻播报、诗歌朗诵等不同场景的语音风格。实测显示其错误率低于1.93%，相似度超72%，在普通显卡上即可速度是实时5倍。项目提供Python库、命令行和网页交互三种使用方式，适合各类用户。目前已在社区引发AI voice

M桐M

509人浏览 · 2025-10-01 08:58:39

M桐M · 2025-10-01 08:58:39 发布

最近语音合成圈炸出个狠角色。

一个叫VoxCPM的开源项目，刚上线就被狂扒——它能仅凭几秒音频，克隆出和原主几乎一模一样的声音，连语气、节奏甚至小口音都复刻得丝毫不差。更绝的是，给段文字，它能自动判断语境：读新闻时字正腔圆，讲笑话时带点俏皮，念散文时放缓节奏。

关键是这玩意儿还特好上手，小白也能分分钟玩起来。

项目地址：https://github.com/OpenBMB/VoxCPM
Demo体验：https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

欢迎大家关注我的公众号：大模型论文研习社
往期回顾：大模型也会 “脑补” 了！Mirage 框架解锁多模态推理新范式，无需生成像素图性能还暴涨
在这里插入图片描述

凭什么说它是「TTS黑马」？

现在的语音合成工具不少，但VoxCPM一出手就显得不太一样。

传统TTS模型大多要先把声音切成「离散小碎块」（类似文字分词），再拼接合成。但这样一来，声音的连贯性容易打折，尤其是复杂语气（比如带哽咽的哭腔、带笑意的调侃）很难还原。

VoxCPM直接跳过了「切分」步骤——它用一种「端到端扩散自回归架构」，像人类说话一样，从文本直接生成连续的语音信号。就像写文章不打草稿直接下笔，流畅度自然甩开一截。

这带来两个「王炸级」能力：

一是零样本语音克隆，逼真到起鸡皮疙瘩
不用训练，给段10秒的参考音频（比如你爱豆的采访片段、家人的日常对话），VoxCPM能扒出声音里的「隐藏密码」：音色、语速、甚至习惯性的停顿。生成的新语音，熟人听了都得愣一下：「这不是本人录的？」

二是上下文感知，说话自带「理解能力」
给它一段《静夜思》，它会自动放慢语速，带点悠远感；给段体育新闻，它会读得铿锵有力；哪怕是夹杂中英文的文本（比如「这个AI项目叫VoxCPM，真的很秀」），也能自然切换语调，不生硬。

更惊喜的是效率。在普通RTX 4090显卡上，生成速度是真实说话速度的5倍多（RTF低至0.17），实时聊天、直播配音都能hold住。

在这里插入图片描述

实测：3种玩法，小白也能快速上手

光说不练假把式。VoxCPM的开源团队把门槛压得极低，三种用法，总有一款适合你。

👉 最简单：装个库，一行代码生成语音

先通过pip安装：

pip install voxcpm

然后写几行Python代码，就能让它开口说话。比如生成一段介绍自己的语音：

import soundfile as sf
from voxcpm import VoxCPM

# 加载模型
model = VoxCPM.from_pretrained("openbmb/VoxCPM-0.5B")

# 生成语音（不指定参考音频，用默认音色）
wav = model.generate(
    text="VoxCPM是一个超厉害的语音合成模型，能克隆声音还能理解语境哦~",
    cfg_value=2.0,  # 数值越高，越贴近文本内容
    inference_timesteps=10  # 数值越高，音质越好（稍慢）
)

# 保存成音频文件
sf.write("output.wav", wav, 16000)

想克隆声音？加两行参数就行。比如用example.wav里的声音读新文本：

wav = model.generate(
    text="我在用VoxCPM克隆声音~",
    prompt_wav_path="examples/example.wav",  # 参考音频路径
    prompt_text="这是参考音频对应的文本"  # 参考音频的文字内容
)

👉 更直接：用命令行批量生成

如果不想写代码，直接用命令行也能操作。比如批量处理文本文件里的内容：

# 批量生成语音（每行一个文本）
voxcpm --input 你的文本文件.txt --output-dir 输出文件夹

# 批量克隆声音
voxcpm --input 你的文本文件.txt --output-dir 输出文件夹 \
  --prompt-audio 参考音频.wav \
  --prompt-text "参考音频的文字内容"

参数还能调：想快点出结果就减小inference-timesteps，想音质更好就调大cfg-value，新手直接用默认值也够用。