Real-Time-Voice-Cloning　安装使用笔记

Real-Time-Voice-Cloning　安装使用Real-Time-Voice-Cloning　是“Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis（SV2TTS）”论文的实现，这是一个三阶深度学习框架，允许从几秒钟的音频中创建一个数字化的语音，并使用它来调节训练的“文本

Lucas23

12747人浏览 · 2020-08-03 17:19:53

Lucas23 · 2020-08-03 17:19:53 发布

Real-Time-Voice-Cloning　安装使用

Real-Time-Voice-Cloning　是“Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis（SV2TTS）”论文的实现，这是一个三阶深度学习框架，允许从几秒钟的音频中创建一个数字化的语音，并使用它来调节训练的“文本转语音”模型，以推广到新的声音．

源码地址：https://github.com/CorentinJ/Real-Time-Voice-Cloning

论文地址：https://arxiv.org/pdf/1806.04558.pdf

模型：

模型分为3个模块构成，encoder模块，systhesis模块，vocoder模块。
encoder模块将说话人的声音转换成speaker embedding，synthesis模块将文本转换成mel-spectrogram，vocoder模块将mel-spectrogram转换成waveform。

接下来演示，安装使用其demo tool box.

安装python 3.7 环境
下载源码 Real-Time-Voice-Cloning-master.zip 及预训练模型pretrained.zip (https://github.com/CorentinJ/Real-Time-Voice-Cloning/wiki/Pretrained-models)
解压预训练模型pretrained，将其中三个模型分别对应拷贝到Real-Time-Voice-Cloning-master下对应的模型中．

在Real-Time-Voice-Cloning-master目录下　pip install -r requirements.txt

这里我使用的是的tf 1.14.0. 原版的 1.15.0 会报cudnn的错误．

还有环境已经安装对应的cudn 10.0 和 cuDNN 7.4

安装pytorch https://pytorch.org/get-started/previous-versions/

pip install torch==1.2.0 torchvision==0.4.0 -f https://download.pytorch.org/whl/torch_stable.html

跑测试脚本python demo_cli.py　或工具箱　python demo_toolbox.py

可能问题：

１　ModuleNotFoundError: No module named '_lzma'

　安装　pip install backports.lzma

在文件 /usr/local/lib/python3.6/(就是你的正使用的目录下)lzma.py line 27行修改如下

try:
    from _lzma import *
    from _lzma import _encode_filter_properties, _decode_filter_properties
except ImportError:
    from backports.lzma import *
    from backports.lzma import _encode_filter_properties, _decode_filter_properties

２　ModuleNotFoundError: No module named '_bz2'

　安装　apt-get install libbz2-dev

还不行的话

Linux下非Root用户解决ImportError: No module named bz2

说白了少个文件，它不一定叫bz2.so，但是大概是lib-dynload文件下的含有bz2的so文件，复制到自己的python的同名文件夹下就好了。

路径全称：.../python37/lib/python3.7/lib-dynload/

我找到的文件叫：_bz2.cpython-35m-x86_64-linux-gnu.so

里面-35m是版本对应的，也必须改，例如：我的python3.7版本就直接重命名-37m。

３　qt.qpa.plugin: Could not load the Qt platform plugin xcb

加入　export QT_DEBUG_PLUGINS=1　

重新运行　python demo_toolbox.py　可知问题在于缺少　libxcb-xinerama.so

所以　sudo apt-get install libxcb-xinerama0　

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

前端 + agent 开发学习路线

Agent = 大模型API + Prompt优化Agent = 系统架构 + 可控执行 + 安全审查 + 领域适配 + 可观测性作为前端开发者，你在Agent时代拥有独特优势用户体验敏感：知道如何设计自然的AI交互状态管理专家：能设计复杂的Agent工作流快速迭代能力：前端开发的敏捷性能快速验证想法可视化能力：能让黑盒的AI决策变得透明不要被"AI需要Python"的说法限制，Node.js生态

2048 AI社区

【癌症诊断】基于粒子群算法PSO优化人工神经网络ANN癌症诊断附Matlab代码

一、癌症诊断的痛点：传统方法与 AI 技术的 “双向奔赴”癌症诊断的核心诉求是早期发现、精准分型，但传统诊断方式（如病理活检、影像学分析）存在明显局限：病理活检依赖医生经验，主观性强且耗时；影像学检查对微小病灶的识别率不足，易出现漏诊、误诊。而人工神经网络（ANN）作为 AI 领域的经典模型，具备强大的特征提取与模式识别能力，可通过学习海量医疗数据（如基因表达数据、病理图像特征、血液指标）自动构建