本文旨在利用<GPT_SoVITS>进行语音合成,基于录制的源音频文件(.MP3),然后编辑目标音频的文本,融合生成目标音频。

开源工具平台:<GPT_SoVITS> https://github.com/RVC-Boss/GPT-SoVITS 


GPT-SoVITS

GPT-SoVITS是一个将GPT的文本理解能力与SoVITS的高质量语音合成技术相结合的开源语音克隆项目。它最大特点是能以极少样本(最短仅需5秒)模仿目标音色,并能进行跨语言语音转换。

🔧 核心工作原理

其关键在于将声音中的“内容”和“音色”分离,再进行重组:

  1. 特征提取与解耦:GPT部分负责从语音中提取内容信息,SoVITS的声纹编码器则提取独特的音色特征。

  2. 条件生成与合成:将分离出的音色特征作为条件,输入到基于扩散模型的声码器中,结合目标文本内容,生成最终的高保真语音。

📝 如何使用(基本流程)

使用GPT-SoVITS克隆一个声音通常包含以下几个步骤:

  1. 环境部署:在支持GPU的电脑或云端服务器上,通过Docker或Python环境安装项目。

  2. 数据准备:录制一段目标说话人清晰、无背景噪音的语音(5-10分钟),并切割成短句。

  3. 训练声纹模型:使用准备好的语音数据,通过WebUI界面提取说话人的声纹特征向量。如需更高精度,可对解码器进行少量轮次的微调。

  4. 推理合成:在WebUI中输入任意文本,选择训练好的声纹模型,即可合成出具有目标音色的语音。

特性 说明
核心能力 1. 少/零样本语音克隆:仅需几秒至几分钟语音即可克隆音色。
2. 跨语言语音合成:例如,可用中文样本生成英文语音。
3. 高保真度:合成语音自然流畅,MOS(语音质量平均意见分)可达到4.2分(接近真人水平)。
技术架构 GPT(生成预训练模型) + SoVITS(基于变分信息瓶颈的语音转换模型)
数据需求 极低,推荐准备5-10分钟的干净录音即可达到较好效果。
主要形式 通常提供带有图形界面的 WebUI,便于操作。
开源地址 由RVC(Retrieval-based-Voice-Conversion)项目创始人发布,代码和模型开源。

1. 下载部署<GPT_SoVITS>

此开源支持各种系统,包括Windows,Linux, MacOS等,可以根据实际需求进行下载。本文以Windows为例,进封装exe使用进行阐述。

1.1 github下载

旨在希望在Windows下直接运行,按照下述截图下载Windows软件包。

1.2 下载本地后直接解压缩 

1.3 配置部署

Install the program by running the following commands:

conda create -n GPTSoVits python=3.10
conda activate GPTSoVits
pwsh -F install.ps1 --Device <CU126|CU128|CPU> --Source <HF|HF-Mirror|ModelScope> [--DownloadUVR5]

上述亦可跳过,前提是PC上以提前安装Python 3.10.


2. 运行<GPT_SoVITS>

2.1 运行<go-webui.bat>

在解压缩目录下运行<go-webui.bat>. 然后自动调用运行python

浏览器自动打开<GPT_SoVITS WebUI>

2.2  WebUI设置

按照下图步骤进行设置

当第四步点击<开启TTS推理WebUI>后,浏览器自动弹出另一网页:http://localhost:9872/ 

后续都在该Web进行操作。


3. 音频AI融合操作

3.1 上传参考音频

上传需要去模仿融合的音效,可以录入音频文本文字,也可以不录入,但对融合效果有影响。

3.2 编辑目标音频文字

如上图所示,中英文均支持。

3.3 合成语音

提供诸多AI配置参数,可以基于实际音效进行参数调优。最后点击“合成语音”。

最后,可以通过右上方<下载>按钮进行音频下载。

💡 实用技巧与注意事项

  • 音频质量是关键:源音频应尽量清晰、无杂音、无背景音乐,这是获得好效果的基础。

  • 参数调整:合成时可适当调整“语速”、“Top-K”和“温度”等参数,以控制合成语音的风格和自然度。

  • 硬件要求:GPU能显著加速训练和合成过程。若使用CPU,合成速度会较慢,但也可行。

  • 遵守开源协议:使用该项目生成的音频作品公开发布时,请遵守项目开源协议,通常需要注明使用了GPT-SoVITS工具。


如若github下载有阻碍,可以评论区留言,发资源链接。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐