哈喽 !大家好!

今天给大家分享一款最近在AI圈彻底爆火的开源TTS神器——千万3(KiloWorD 3)!它集语音克隆、语音设计、超高质量拟人语音生成三大模型于一体,支持中文、英文、日文、韩文等多国语言,能输出稳定、有情感、可持续的真人级语音。B站大佬已制作完整离线整合包,25.2GB,6GB显存即可运行,解压即用,完全免费!

工具已经整理在文末,有需要的朋友记得获取保存哦~.

 链接:https://pan.quark.cn/s/10f066972b71

一、软件打开方式

这是一款千万3 TTS的离线整合包,由国内AI社区大佬封装。下载后是一个压缩包,体积约25.2GB。解压后进入文件夹,找到 run.bat 文件,双击或以管理员身份运行即可启动。首次启动需要加载模型,请耐心等待,按一次回车键(Enter)继续。

二、软件的功能介绍

这是目前市面上功能最完整、情感表现力最强的开源TTS整合方案,核心特色如下:

三大顶级模型,一站式集成

  • 语音设计(Speech Design):根据文本描述生成指定语气、情绪的语音。例如输入“流露出一丝难以置信和恐慌”,生成的语音会精准匹配该情绪。

  • 语音克隆(Voice Clone):导入参考音频(或实时录制麦克风),即可克隆该音色,并用该声音说出任意目标文本。

  • 语音合成(Voice Synthesis):内置海量高质量发音人库,选择不同人物声音,一键生成自然流畅的语音。

多语言全球覆盖

  • 完美支持中文、英文、日文、韩文,以及其他多国语言。

  • 跨语言混合合成同样稳定,例如中文文本输出日式口音等。

超高拟人度,情感饱满

  • 千万3模型在情感表达、停顿节奏、语调起伏上大幅超越前代TTS。

  • 生成的语音自然、不僵硬,几乎听不出机器痕迹。

纯离线运行,隐私无忧

  • 所有模型文件均在本地,无需联网,无数据上传风险。

  • 一次下载,永久免费使用。

硬件门槛亲民

  • 仅需6GB以上显存即可流畅运行(NVIDIA显卡,支持CUDA)。

  • 1.7B参数版本效果最优,同时提供0.6B轻量版供低显存设备使用。

三、使用指南

  1. 解压与启动

    • 将压缩包解压到不含中文的路径(如 D:\KiloWorD3)。

    • 进入文件夹,右键 run.bat → 以管理员身份运行

    • 启动后命令行窗口会加载模型,按一次回车键继续,等待出现 http://127.0.0.1:7860 类似的本地地址。

  2. 访问Web界面

    • 复制该地址,在电脑浏览器中打开;或等待浏览器自动跳转。

    • 命令行窗口请勿关闭,关闭即服务终止。

  3. 语音设计模式

    • 在文本框内输入需要合成的文本。

    • 选择目标语言(中文/英文/日语/韩语等)。

    • 在“语气描述”框中输入情绪指令(如“惊讶中带着一丝怀疑”“温柔缓慢地讲述”)。

    • 点击“使用”或“生成”,等待数秒即可生成语音,在线试听下载保存

  4. 语音克隆模式

    • 点击“导入参考音频”上传你希望克隆的人声样本(建议清晰、无杂音、3秒以上)。

    • 或点击“录制”按钮,用麦克风实时录制自己的声音。

    • 在目标文本框中输入需要合成的内容。

    • 选择模型大小(1.7B效果更佳,0.6B速度更快),点击“克隆语音”。

    • 生成后可试听效果,满意则下载保存。

  5. 语音合成模式

    • 输入合成文本。

    • 从发音人库中选择一个预设声音(包含多种年龄、风格、语种)。

    • 可额外指定风格、语速、音调等参数。

    • 点击“生成语音”,试听并下载。

四、使用体验

千万3是目前我见过的情感表现力最强的离线TTS。尤其是“语音设计”功能,不再只是“读文本”,而是“演文本”——输入“不敢相信,我明明放那里的”,它真的能配出那种又慌又懵的语气。语音克隆虽然略逊于顶尖云端模型,但在离线工具里已是顶尖水平,短参考音也能抓准音色特征。最让我惊喜的是它的语音合成库,里面好几个人声几乎听不出是AI,清澈、自然、有温度。

25.2GB的整合包确实不小,但换来的是永久免费、完全离线、无任何使用限制。对于需要批量生成配音、做有声内容、或者对语音隐私有要求的用户来说,这绝对是目前最值得下载的TTS神器之一。显存够的话,强烈建议直接上1.7B版本,效果不会让你失望。

链接:https://pan.quark.cn/s/10f066972b71

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐