docker安装MoneyPrinterTurbo，实现文本转视频的本地私有化部署

前文我们已经搭建了文本转图片、文本转音频两种转换工具，尚缺文本转视频的这种工具。本文将通过部署MoneyPrinterTurbo，搭建一套本地AI视频生成工具。

zhuganlai168

441人浏览 · 2025-11-17 14:55:12

zhuganlai168 · 2025-11-17 14:55:12 发布

一、背景

前文我们已经搭建了文本转图片、文本转音频两种转换工具，尚缺文本转视频的这种工具。
想要把文本转为视频，需要以下几个素材：

1、主题（包括文案、关键字）
2、插图
3、音频
4、字幕
5、背景音乐

本文将通过部署MoneyPrinterTurbo，搭建一套本地AI视频生成工具。

二、部署

从官网github拉取项目，包括代码、Dockerfile、docker-compose.yml、config.example.toml等等

github项目地址

1、修改配置文件

cp config.example.toml config.toml

视频里的插图素材，来自于pexels，需要获取其apikey。
选择一款LLM, 这里以kimi为例，填写其apikey和model。

示例：
在这里插入图片描述

2、运行容器

cd MoneyPrinterTurbo
docker compose up -d

在这里插入图片描述
其docker镜像比较大，当然远比前文说的index-tts小多了。

在这里插入图片描述

三、pexels

pexels是一个开放免费的素材库，可供AI检索，用于生成视频的插图。

https://www.pexels.com/api/key/ 查看apikey

在这里插入图片描述

四、kimi大模型

进入moonshot开发控制台
https://platform.moonshot.cn/console/api-keys
生成apikey，为MoneyPrinterTurbo所用。

在这里插入图片描述
复制这里的apikey至config.toml文件里。

每个注册账户会被分配15元的免费额度，供开发自用。
在这里插入图片描述

五、生成视频

访问首页UI：http://localhost:8501/
基础配置，可以看到你所使用的LLM等信息

在这里插入图片描述

1、主题（包括文案、关键词）

输入主题，用「场景+主体+动作+风格」四段式代替一句话

点击使用AI根据主题生成【视频文案】和【视频关键词】

2、插图

在这里插入图片描述
可以上传本地文件，默认是从Pexels素材库搜索而得。

如果是本地文件，你可以上传mp4文件，也可以上传图片等。

3、音频

根据第一步生成的文案，调用Azure TTS文本转语音服务，生成视频的音频。

在这里插入图片描述
注意，这里要选择zh-CN等汉语朗读的声音。

如果你选择的是其他语言，而第一步输入的又是汉字，那么可能会导致生成视频失败。

4、字幕

在这里插入图片描述

5、背景音乐

选择本地的文件作为背景音乐。

在这里插入图片描述

配置完成，点击底部的“生成视频”。

在这里插入图片描述

结果发现，生成的视频经常是画面与文案不搭。

MoneyPrinterTurbo 仅做「关键词-素材库搜索」而不做「视觉语义理解」。
它的大致流程是：

大模型把文案拆成几个关键词。
用关键词去 Pexels / Pixabay 搜索标签匹配的素材。
按时间轴简单拼接，不做二次校验。

想要让MoneyPrinterTurbo更好地做到「视觉语义理解」，建议是本地上传素材。

把「素材来源」改成 Local，然后把与文案一一对应的图片/短视频按 01.jpg 02.jpg … 命名，上传到 ~/moneyprinter-data/images/，项目会按文件名顺序直接引用，100% 贴合。

「视频拼接模式」选择“顺序拼接”。
在这里插入图片描述

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

GitHub热榜新宠：Strix开源项目崛起，开发者们的最新焦点！

cover

2025年程序员职业转折点：初级岗锐减32%，大模型工程师年薪46万起，揭秘3大转型出路！

cover

Product Hunt 每日热榜 | 2025-11-17

所有评论(0)

查看更多评论

zhuganlai168

已为社区贡献3条内容