CosyVoice安装部署和基本使用

CosyVoice是阿里开源的多语言语音生成大模型，支持文本转语音、音色克隆和跨语种合成。安装需拉取GitHub源码，创建Python 3.10虚拟环境并安装依赖库。提供三种模型：基础版（300M）、微调版（300M-SFT）和指令版（300M-Instruct），可通过ModelScope下载。运行WebUI后，用户可上传音频或文本生成语音，支持自然语言指令控制语调、情感等参数。该工具适用于语音

lxcw_sir

247人浏览 · 2025-09-08 10:33:16

lxcw_sir · 2025-09-08 10:33:16 发布

CosyVoice 是阿里通义语音实验室发布的开源多语言语音生成大模型，依托大规模预训练语言模型，深度融合文本理解与语音生成技术，能够将各类文本内容精准转化为高度拟人化的自然语音。

安装部署

拉取源码

从github上拉去代码，并且进入目录更新

git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git
cd CosyVoice
git submodule update --init --recursive

创建虚拟环境（python 3.10环境）

利用conda创建环境cosyvoice，并且激活环境

conda create -n cosyvoice python=3.10
conda activate cosyvoice

安装依赖库

conda install -y -c conda-forge pynini==2.1.5
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com

安装音频处理工具和开发依赖库

ubuntu系统环境下

sudo apt-get install sox libsox-dev

centos系统环境下

sudo yum install sox sox-devel

下载模型

通过魔塔下载

pip install modelscope

模型选择

CosyVoice-300M（基础版）
模型定位：通用语音合成解决方案
核心功能：

零样本音色克隆：仅需3-10秒原始音频即可复现音色特征（含韵律、情感等细节）

跨语种合成：支持中/英/日/韩及粤语、四川话等多方言

实时响应：采用双向流建模技术，首包延迟低至150ms

modelscope download --model iic/CosyVoice-300M

CosyVoice-300M-SFT（微调版）
模型优化：通过领域数据专项训练提升任务表现
增强功能：

保留基础版所有能力

内置预置音色库（免样本输入）

强化情感与方言调控，支持更精细的口音/情绪调整

modelscope download --model iic/CosyVoice-300M-Instruct

CosyVoice-300M-Instruct（指令版）
交互方式：支持自然语言指令控制
特色功能：

通过文本标签（如<laugh>）或自然指令（如"用欢快语气"）调节说话人参数（身份/情绪/性别/语速/音高）

支持插入环境音效（笑声/呼吸声）及词汇重音强调

modelscope download --model iic/CosyVoice-300M-SFT

启用ui界面

指定下载模型的目录，一般通过魔塔下载的模型存在于/root/.cache/modelscope/下
默认运行在8000端口，也可以通过–port指定端口

python3 webui.py --model_dir /root/.cache/modelscope/hub/iic/CosyVoice-300M

访问ip地址+端口，例如192.168.10.100:8000
在这里插入图片描述
若使用自然语言控制，需要指定CosyVoice-300M-Instruct模型

python3 webui.py --port 8001 --model_dir /root/.cache/modelscope/hub/iic/CosyVoice-300M-Instruct

3s极速复刻，输入合成文本，可以通过麦克风录入一段音频，或者上传本地音频，输入prompt文本，也就是上传音频的文字内容，要准确，然后点击生成音频，等待几秒生成即可

ok，部署和基本使用介绍完了，后面再介绍进阶的开发使用。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

在 EPGF 架构下的 Python 环境变量设置建议——Anaconda 路径精简后暴露 python 及工具到环境变量的配置记录 [三]

2048 AI社区

my-neuro rag 向量数据库部分笔记 sklearn.metrics.pairwise.cosine_similarity watchdog 召回

这是一个运行在本地的语义搜索引擎 + 知识库问答 API 服务，能根据用户提问从“记忆库.txt”中找出最相关的段落，并通过横线分隔管理知识片段。这是一套轻量级本地知识库语义检索引擎，专为中文设计，支持热更新、日志记录、GPU加速，适用于构建带有“记忆能力”的对话机器人、个人AI助理、游戏NPC记忆系统等。你可以把它理解为：🔹 “我的AI大脑的记忆模块”🔹 “让AI记得你说过啥的小助手”步骤干

2048 AI社区

Figure 获 10 亿美元融资，启动全球最大真实场景机器人数据集 Go-Big 构建

正如前 Open AI 研究员姚顺雨所说，几十年来，AI 领域的研究都聚焦着新的训练方法和模型，但进入到 “AI 下半段（The Second Half）”，聚焦点将从 “解决问题” 转移到 “定义问题”，更加注重基准测试（Benchmark），包括数据集、评估任务、评估指标的建设。，打造 “机器人行为的 YouTube”，利用海量真实场景数据，以人类第一视角视频训练 Helix 模型，最终实现人

2048 AI社区

所有评论(0)

查看更多评论

lxcw_sir

@lxcw_sir

已为社区贡献2条内容