【GitHub开源AI精选】AutoMV：开源多智能体音乐视频生成系统，开启AI创作新时代

AutoMV是一个无需训练的多智能体系统，能够直接从完整歌曲生成连贯的音乐视频。它通过音乐信息检索提取歌曲的关键特征，如节拍、结构和歌词时间戳，然后由编剧和导演智能体协作生成剧本和拍摄计划，最终通过生成模块和验证模块完成视频制作并确保质量。这一创新的系统不仅实现了从音频和歌词到完整音乐视频的端到端生成，还具备高效、低成本和高质量的特点。

xiaobing259

830人浏览 · 2026-02-06 08:00:00

xiaobing259 · 2026-02-06 08:00:00 发布

系列篇章💥

No.	文章
1	【GitHub开源AI精选】LLM 驱动的影视解说工具：Narrato AI 一站式高效创作实践
2	【GitHub开源AI精选】德国比勒费尔德大学TryOffDiff——高保真服装重建的虚拟试穿技术新突破
3	【GitHub开源AI精选】哈工大（深圳）& 清华力作 FilmAgent：剧本自动生成 + 镜头智能规划，开启 AI 电影制作新时代
4	【GitHub开源AI精选】Lumina - Image 2.0 文生图模型，以小参数量实现高分辨率多图生成新突破
5	【GitHub开源AI精选】探索 Mobile-Agent：X-PLUG 推出的创新型移动智能操作代理
6	【GitHub开源AI精选】吴恩达团队开源VisionAgent：用自然语言开启计算机视觉新时代
7	【GitHub开源AI精选】Oumi：一站式AI开发平台，涵盖训练、评估与部署全流程
8	【GitHub开源AI精选】深入剖析RealtimeSTT：开源实时语音转文本库的强大功能与应用
9	【GitHub开源AI精选】PodAgent：多智能体协作播客生成框架，自动化打造高质量播客，赋能内容创作与品牌传播
10	【GitHub开源AI精选】OpenManus开源AI工具：3小时复刻Manus，39.5k星
11	【GitHub开源AI精选】OpenGlass：大模型赋能的开源方案，25美元打造智能眼镜，支持语音控制+AR叠加
12	【GitHub开源AI精选】AppAgentX：西湖大学发布可自主进化的手机智能体，实现GUI操作的高效与智能
13	【GitHub开源AI精选】Agent-S架构揭秘：低代码+多模态融合的智能体新范式
14	【GitHub开源AI精选】Open-Interface：大模型驱动的计算机“自动驾驶”系统｜自然语言操控的自动化工具
15	【GitHub开源AI精选】2025年AI工程师必备！AgentOps五大功能重构智能体开发流程
16	【GitHub开源AI精选】LangManus：社区驱动的多智能体AI自动化框架，开启复杂任务处理新纪元
17	【GitHub开源AI精选】autoMate：AI 驱动的本地自动化助手，用自然语言解锁高效办公，让电脑任务自己动起来
18	【GitHub开源AI精选】Sitcom-Crafter：北航联合港中文等高校打造的剧情驱动3D动作生成系统
19	【GitHub开源AI精选】Local Deep Researcher：本地化部署的AI研究助手，零门槛开启智能研究
20	【GitHub开源AI精选】Browser Use：开源AI自动化工具，让AI像人类一样操控网页
21	【GitHub开源AI精选】LLaVA-Med：微软打造的生物医学领域多模态AI助手，助力医疗智能化
22	【GitHub开源AI精选】RF-DETR：Roboflow 的实时目标检测模型『边缘设备鹰眼』，低至160FPS的工业级检测利器
23	【GitHub开源AI精选】MegaTTS 3：字节跳动开源语音利器，吊打VALL-E，自然度逼近真人录音
24	【GitHub开源AI精选】LocAgent：斯坦福联合耶鲁大学等机构推出的代码问题定位智能体
25	【GitHub开源AI精选】WhisperX：70倍实时语音转录！革命性词级时间戳与多说话人分离技术
26	【GitHub开源AI精选】Crawl4AI：LLM专属极速开源爬虫利器、1秒处理百万级数据
27	【GitHub开源AI精选】Oliva：开源语音RAG助手，一句话秒搜海量数据，多AI协作颠覆传统搜索
28	【GitHub开源AI精选】UFO²：微软开源的 Windows 桌面 Agent 操作系统，开启智能自动化新时代
29	【GitHub开源AI精选】ebook2audiobook：AI驱动的电子书转有声书利器，支持1107种语言+语音克隆
30	【GitHub开源AI精选】WebThinker：赋能大型推理模型的自主科研新范式
31	【GitHub开源AI精选】ZeroSearch：阿里巴巴开源的大模型搜索引擎框架，无需真实搜索引擎交互
32	【GitHub开源AI精选】Toolkami：极简AI Agent框架，七种工具实现高效轻量化开发
33	【GitHub开源AI精选】Docext：NanoNets 打造的文档提取利器，本地化、高效能、免费开源
34	【GitHub开源AI精选】SketchVideo：手残党福音！草图秒变大片，快手黑科技让创作效率飙升300%
35	【GitHub开源AI精选】NLWeb：微软开源的自然语言交互利器，让网站秒变智能AI应用
36	【GitHub开源AI精选】ScrapeGraphAI：基于LLM的智能爬虫，多页面爬取、语音生成，开启数据提取新纪元
37	【GitHub开源AI精选】FaceShot：同济大学联合上海 AI Lab 推出的无需训练肖像动画生成框架
38	【GitHub开源AI精选】Minion Agent：开源界的“全能王”，深度研究、自动规划全搞定
39	【GitHub开源AI精选】AgenticSeek：开源本地通用AI Agent，打造自主执行任务的智能助手
40	【GitHub开源AI精选】Morphik：开源多模态检索增强生成工具，助力AI应用开发
41	【GitHub开源AI精选】TEN VAD：高性能实时语音活动检测系统，助力AI对话系统高效交互
42	【GitHub开源AI精选】Google AI Edge Gallery：谷歌赋能的离线AI模型探索利器
43	【GitHub开源AI精选】PandasAI：一键开启数据对话时代，非技术用户也能轻松上手
44	【GitHub开源AI精选】ContentV：字节跳动开源的高效文生视频模型框架，助力AI视频生成技术突破
45	【GitHub开源AI精选】VRAG-RL：阿里通义推出的多模态RAG推理框架，助力视觉信息理解与生成
46	【GitHub开源AI精选】MultiTalk：中山大学与美团联合打造的音频驱动多人对话视频生成框架
47	【GitHub开源AI精选】Salesforce开源项目MAS-Zero：零监督下的多智能体系统设计框架
48	【GitHub开源AI精选】InftyThink：浙大联合北大打造的无限深度推理范式，突破大模型长推理瓶颈
49	【GitHub开源AI精选】RAG-Anything：港大开源利器、让AI真正理解复杂文档，PDF、表格、公式全能读
50	【GitHub开源AI精选】PreenCut深度解析：开源AI视频剪辑利器，用自然语言一句话精准定位片段
51	【GitHub开源AI精选】TradingAgents-CN：基于多智能体LLM的中文金融交易决策框架深度解析
52	【GitHub开源AI精选】KlicStudio：极简 AI 视频翻译配音工具，让跨平台内容本地化效率翻倍，GitHub狂揽7.9k星
53	【GitHub开源AI精选】JoyAgent-JDGenie：京东开源的通用多智能体系统，助力AI应用落地
54	【GitHub开源AI精选】SuperDesign：开源AI设计Agent，让你的设计从想法到实现只需60秒
55	【GitHub开源AI精选】WeKnora：腾讯开源的文档理解与语义检索框架，助力智能问答与知识管理
56	【GitHub开源AI精选】LandPPT：开源AI PPT生成工具，助力演示文稿高效创作
57	【GitHub开源AI精选】NeuralAgent：开源桌面AI助手，助力高效生产力与自动化任务执行
58	【GitHub开源AI精选】开源AI桌面助手Glass：实时屏幕捕捉与音频识别，助力高效办公
59	【GitHub开源AI精选】MiroFlow：开源多Agent系统开发框架，助力AI大模型高效开发
60	【GitHub开源AI精选】ScreenCoder：开源智能UI截图转代码工具，助力前端开发自动化
61	【GitHub开源AI精选】OxyGent：京东开源的多智能体协作框架，助力高效智能系统开发
62	【GitHub开源AI精选】Hugging Face AI Sheets：开源无代码构建、丰富和转换数据集的利器
63	【GitHub开源AI精选】Coze Studio：字节跳动开源的AI智能体开发平台，一站式构建与部署AI应用
64	【GitHub开源AI精选】Chaterm：开源的AI终端工具，运维版Cursor，助力高效云管理
65	【GitHub开源AI精选】MobileUse：由MadeAgents打造的分层反思驱动的移动自动化GUI代理
66	【GitHub开源AI精选】WhisperLiveKi：开源实时语音识别利器，实时转写+说话人识别+完全本地部署，一键搞定会议纪要
67	【GitHub开源AI精选】Open-Fiesta：开源AI聊天平台，多模型并行对比的新选择
68	【GitHub开源AI精选】AgentScope：阿里开源多智能体核弹、并行工具+Actor架构+秒级介入+沙箱隔离
69	【GitHub开源AI精选】Super Agent Party：开源3D AI桌面伴侣，开启智能交互新体验(聊天、写代码、控直播）
70	【GitHub开源AI精选】Parlant：为企业级应用而生的开源LLM智能体框架，打造“AI员工监工”，让LLM可解释、可审计
71	【GitHub开源AI精选】AI-Video-Transcriber：开源AI视频转录与摘要工具，支持30+平台，赋能高效内容处理
72	【GitHub开源AI精选】DeepDoc：开源本地知识库深度研究工具，多格式文档解析与智能报告生成
73	【GitHub开源AI精选】Strix：AI驱动的安全测试先锋，助力应用安全防护
74	【GitHub开源AI精选】通义DeepResearch：开源深度研究智能体，助力复杂信息检索与多步推理
75	【GitHub开源AI精选】Presentation-AI：ALLWEONE团队打造的开源AI演示文稿生成工具
76	【GitHub开源AI精选】SciToolAgent：浙大开源的知识图谱驱动的科研利器
77	【GitHub开源AI精选】FireRedChat：小红书开源的全双工语音交互系统，开启智能语音新时代
78	【GitHub开源AI精选】OpenLens AI：清华推出的医学研究全自主AI助手，开启科研新纪元
79	【GitHub开源AI精选】StableAvatar：复旦大学联合微软亚洲研究院推出的无限时长音频驱动虚拟形象视频生成技术框架
80	【GitHub开源AI精选】MineContext：字节开源的主动式上下文感知 AI 工具，助力高效信息管理
81	【GitHub开源AI精选】LLaVA-OneVision-1.5：面向多模态训练大众化的全开源框架
82	【GitHub开源AI精选】Glyph：智谱与清华开源的视觉文本压缩框架，突破大模型上下文限制
83	【GitHub开源AI精选】DiaMoE-TTS：清华 & 巨人网络开源的多方言语音合成利器
84	【GitHub开源AI精选】Meta Omnilingual ASR：支持1600+语言的开源多语言语音识别技术
85	【GitHub开源AI精选】DeepEyesV2：迈向多模态智能体的新里程碑
86	【GitHub开源AI精选】Kosong：月之暗面开源的AI代理开发利器，赋能智能体应用构建
87	【GitHub开源AI精选】SmartResume：阿里巴巴开源高效智能简历解析系统
88	【GitHub开源AI精选】Lumine：字节跳动打造的3D开放世界通用AI智能体，开启跨游戏智能交互新时代
89	【GitHub开源AI精选】Skywork R1V4-Lite：实时交互、深度推理，多模态智能体的全能王
90	【GitHub开源AI精选】MemOS：解锁AI记忆潜能，打造“记忆原生”的智能系统
91	【GitHub开源AI精选】Supertonic：开源AI驱动的极速离线TTS引擎，重塑语音合成新体验
92	【GitHub开源AI精选】ViMax：香港大学开源的多智能体视频生成框架，一键实现创意到视频的跨越
93	【GitHub开源AI精选】Open-AutoGLM：智谱AI开源的手机端智能助理框架，开启自动化操作新时代
94	【GitHub开源AI精选】Paper2Slides：一键将论文转为专业幻灯片的AI工具
95	【GitHub开源AI精选】Wan-Move：阿里开源的高性能运动可控视频生成框架
96	【GitHub开源AI精选】LightX2V：商汤开源的实时视频生成推理框架，推动视频创作新纪元
97	【GitHub开源AI精选】Step-GUI：阶跃星辰推出的高效GUI自动化AI Agent
98	【GitHub开源AI精选】Live Avatar：阿里巴巴联合高校开源的实时音频驱动数字人生成系统
99	【GitHub开源AI精选】AutoMV：开源多智能体音乐视频生成系统，开启AI创作新时代

前言

在当今数字化时代，音乐视频的创作一直面临着高昂的成本和复杂的技术门槛。然而，随着人工智能技术的飞速发展，这一局面正在被打破。AutoMV，一个由M-A-P联合北京邮电大学、南京大学等机构共同开发的开源多智能体系统，为音乐视频的自动化生成带来了全新的解决方案。它通过深度音乐理解和多智能体协作，能够直接从歌曲生成连贯、与节奏对齐的音乐视频，极大地降低了创作成本和时间，为音乐视频创作带来了革命性的变化。
在这里插入图片描述

一、项目概述

二、核心功能

（一）音乐理解与解析

AutoMV能够提取歌曲的节拍、结构（如主歌、副歌）和歌词时间戳，为视频生成提供音乐线索。它利用SongFormer进行结构分析，将歌曲划分为不同的段落，如前奏、主歌、副歌和桥段，从而为视频的叙事结构提供基础。同时，通过htdemucs分离人声和伴奏，为歌词转录和口型同步提供支持。Whisper则用于自动转录歌词，并结合Gemini进一步优化歌词和时间戳，确保歌词的准确性。

（二）剧本创作

系统根据音乐和歌词生成分镜脚本，确保视频内容与歌词语义一致。编剧智能体负责根据音乐和歌词生成分镜脚本，设计故事线和场景。它会根据歌词的情感、主题和节奏，创作出与之匹配的视觉故事，使视频能够准确传达歌曲的情感和意境。

（三）角色与场景规划

AutoMV支持创建角色库、设计角色形象，保持角色在视频中的连贯性和一致性。角色库中详细描述了每个角色的外貌、发型、肤色、服装、性别、年龄等特征。在视频生成过程中，系统会根据剧本的要求从角色库中选择合适的角色，并确保其在不同场景中的形象保持一致。

（四）视频生成

系统能够生成与音乐节奏和歌词对齐的叙事镜头和表演镜头（如唱歌、舞蹈）。导演智能体根据剧本生成具体的拍摄指令，包括镜头类型、角色动作和相机运动。生成模块则调用不同的视频生成模型，如扩散模型和口型同步模型，来生成视频片段。对于需要口型同步的场景，系统会使用Qwen-Wan 2.2模型，结合人声音频生成逼真的口型动画。

（五）质量验证与迭代

AutoMV自动检查生成视频的音画同步、角色一致性、动作合理性，根据需要进行重拍，直到满足质量要求。验证智能体负责检查生成视频的质量，确保其符合剧本的要求和音乐的节奏。如果发现任何问题，如角色形象不一致、动作不自然或音画不同步，验证智能体会要求重新生成相关片段。

三、技术揭秘

（一）音乐信息检索（MIR）

AutoMV的核心技术之一是音乐信息检索（MIR），它通过专业工具对音乐进行深度剖析，提取关键数据。例如，Qwen2.5-Omni用于音乐描述，能够生成包含歌曲风格、情绪和乐器的高级描述，并推断歌手属性。这些信息为后续的智能生成提供了重要依据。

（二）多智能体协作

AutoMV采用多智能体系统架构，不同智能体分别负责音乐预处理、编剧、导演、视频生成和质量审核等环节。编剧智能体负责将音乐和歌词转化为视觉语言，生成分镜脚本；导演智能体则根据剧本生成具体的拍摄指令；生成模块负责调用不同的视频生成模型生成视频片段；验证智能体则对生成的视频进行质量评估。这种分工明确且紧密协作的模式，确保了从歌曲到完整音乐视频的自动化生成。

（三）迭代优化

AutoMV通过验证智能体的反馈机制，不断优化生成的视频。验证智能体会对生成的视频片段进行多维度评估，包括音画同步、角色一致性、动作合理性等。如果发现任何问题，它会要求重新生成相关片段，直到满足质量要求。这种迭代优化的过程，确保了最终生成的音乐视频在质量上能够达到较高的标准。

四、应用场景

（一）影视制作

电影、电视剧和网络剧的制作团队可以利用AutoMV快速生成与音乐相关的片段，用于预告片、片头曲或插曲的视觉呈现。这不仅节省了时间和成本，还能够快速地将创意转化为实际的视觉内容。

（二）广告与营销

广告公司可以利用AutoMV生成与广告音乐匹配的视频内容。通过快速制作出吸引人的广告视频，能够提升广告的吸引力和传播效果。

（三）短视频平台

内容创作者可以利用AutoMV生成与音乐匹配的短视频。这些短视频可以用于社交媒体平台，如抖音、快手、B站等，吸引观众并增加粉丝互动。

（四）音乐与视频制作教育

学校和教育机构可以将AutoMV作为教学工具。它可以帮助学生理解音乐与视频之间的关系，学习音乐视频的创作流程和技巧。

（五）多模态学习

通过AutoMV生成的音乐视频，学生能够更好地理解歌词的含义和情感表达。这增强了对音乐和文学作品的多模态学习体验。

五、快速使用

（一）环境准备

克隆仓库：

git clone https://github.com/multimodal-art-projection/AutoMV.git
cd AutoMV

克隆AutoMV的GitHub仓库到本地，并进入项目目录。

安装依赖：
```
pip install -r SongFormer_requirements.txt
conda install -c conda-forge ffmpeg
pip install -r requirements.txt
```
安装项目所需的所有依赖项，包括ffmpeg、htdemucs、whisper、pydub等工具，以及Gemini、Doubao、Qwen等API的SDK。

设置环境变量：
在你的shell配置文件（如.bashrc或.zshrc）中设置以下环境变量，或者在运行项目前手动设置：

export GEMINI_API_KEY=your_gemini_api_key
export DOUBAO_API_KEY=your_doubao_api_key
export ALIYUN_OSS_ACCESS_KEY_ID=your_oss_access_key_id
export ALIYUN_OSS_ACCESS_KEY_SECRET=your_oss_access_key_secret
export ALIYUN_OSS_BUCKET_NAME=your_oss_bucket_name
export HUOSHAN_ACCESS_KEY=your_huoshan_access_key
export HUOSHAN_SECRET_KEY=your_huoshan_secret_key
export GPU_ID=your_gpu_id  # 可选
export WHISPER_MODEL=your_whisper_model
export QWEN_OMNI_MODEL=your_qwen_omni_model

这些环境变量用于配置API密钥和其他必要的系统参数。

下载预训练模型：
- Qwen2.5-Omni-7B：
  - 下载链接：ModelScope
- Whisper Large-v2：
  - 安装和使用说明：Whisper GitHub
- Wan2.2-s2v（可选）：
  - 如果需要本地生成口型同步视频，可下载此模型。处理一首歌曲通常需要在A800 GPU上花费4-5小时，但比使用API调用更便宜。
  - 模型设置：
```
cd generate_lip_video
git clone https://huggingface.co/Wan-AI/Wan2.2-S2V-14B
conda create -n gen_lip python=3.10
conda activate gen_lip
pip install requirements.txt
pip install requirements_s2v.txt
```
  - 修改代码：
    - 注释掉generate_pipeline.py文件中的gen_lip_sync_video_jimeng(music_video_name, config=Config)函数调用。
  - 测试/执行步骤：
```
cd picture_generate
python picture.py
python generate_lip_video/gen_lip_sycn_video.py
python generate_pipeline.py
```
- 在config.py中指定模型路径：
```
MODEL_PATH_QWEN = "/path/to/Qwen2.5-Omni-7B"
WHISPER_MODEL_PATH = "/path/to/whisper-large-v2"
```
- 下载SongFormer预训练模型：
```
cd picture_generate/SongFormer/src/SongFormer
python utils/fetch_pretrained.py
```
  如果在中国大陆，可能需要设置HF_ENDPOINT=https://hf-mirror.com。

（二）生成音乐视频

准备音频文件：
将你的.mp3或.wav文件放置在以下路径：
```
./result/{music_name}/{music_name}.mp3
```
其中{music_name}是你的音乐项目的标识符，将用于存储所有中间和最终输出文件的目录名称。请仅使用英文字符、数字或下划线。
运行AutoMV：
- 在config.py中，将{music_name}替换为你的音乐项目标识符。
- 对于中国大陆用户，可能需要设置HF_ENDPOINT=https://hf-mirror.com。
- （1）生成每个MV片段的第一帧图像：
```
python -m picture_generate.main
```
  - 此步骤生成每个片段的视觉提示、关键帧图像，并将结果保存在result/{music_name}/picture/目录下。
- （2）生成完整的音乐视频：
```
python generate_pipeline.py
```
  - 此步骤使用故事板、相机脚本和关键帧生成所有视频片段，并将片段合并为最终的MV，保存为result/{music_name}/mv_{music_name}.mp4。

（三）输出目录结构

完成整个流程后，输出目录结构如下：

result/{music_name}/
├── camera/                 # 每个MV片段的相机方向
├── output/                  # 每个片段生成的视频片段
├── picture/                # 每个MV片段的第一帧图像
├── piece/                   # 从原始歌曲中切割的音频片段
├── {music_name}_vocals.wav  # 分离的人声音频（可选）
├── {music_name}.mp3         # 完整的原始音频
├── label.json               # 角色库
├── mv_{music_name}.mp4      # 最终生成的音乐视频
├── name.txt                 # 歌曲的完整名称
└── story.json               # 完整的MV故事板

通过以上步骤，你可以快速部署并使用AutoMV生成高质量的音乐视频。

结语

AutoMV作为一款开源的多智能体音乐视频生成系统，凭借其强大的音乐理解能力、多智能体协作机制和高质量的视频生成效果，为音乐视频创作带来了全新的可能性。它不仅降低了创作成本和时间，还提高了创作效率和质量。随着技术的不断发展和优化，AutoMV有望在未来为音乐视频创作带来更多的创新和突破。

项目地址

项目官网：https://m-a-p.ai/AutoMV/
GitHub代码库：https://github.com/multimodal-art-projection/AutoMV
学术论文链接：https://arxiv.org/pdf/2512.12196

在这里插入图片描述

😎 作者介绍：资深程序老猿，从业10年+、互联网系统架构师，目前专注于AIGC的探索（CSDN博客之星|AIGC领域优质创作者）
📖专属社群：欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码，回复‘入群’ 即刻上车，获取邀请链接。
💘领取三大专属福利：1️⃣免费赠送AI+编程📚500本，2️⃣AI技术教程副业资料1套，3️⃣DeepSeek资料教程1套🔥（限前500人）
如果文章内容对您有所触动，别忘了点赞、⭐关注，收藏！加入我们，一起携手同行AI的探索之旅，开启智能时代的大门！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

如何通过 AiPrice 插件提高亚马逊销量——从数据驱动到实际应用

2048 AI社区

生成式 AI 技能树：从基础扎根到生产落地的全路径成长指南

2048 AI社区

【OpenCV入门】轻松掌握人脸识别：从图片到视频的Haar级联分类器实战

本文介绍了基于OpenCV实现人脸检测的完整流程。首先讲解了Haar特征、AdaBoost算法和级联分类器的核心原理，然后通过两个实战案例演示具体实现：图片人脸检测（结合眼睛检测）和实时视频人脸检测。文章提供了详细的代码注释和性能优化建议，帮助读者快速掌握这一计算机视觉基础技术。从原理到实践，为深入学习AI视觉应用打下基础。