【GitHub开源AI精选】StableAvatar：复旦大学联合微软亚洲研究院推出的无限时长音频驱动虚拟形象视频生成技术框架

StableAvatar 是一个基于扩散变换器（Diffusion Transformer）的音频驱动视频生成技术框架。它能够根据一张人物图片和一段音频生成与音频高度同步的人物口型和表情的视频，且视频长度理论上可以无限延长。该技术框架通过其独特的架构和创新机制，解决了以往技术在生成长视频时的关键问题，显著提升了生成视频的自然度和连贯性。

xiaobing259

1530人浏览 · 2025-12-01 08:00:00

xiaobing259 · 2025-12-01 08:00:00 发布

系列篇章💥

No.	文章
1	【GitHub开源AI精选】LLM 驱动的影视解说工具：Narrato AI 一站式高效创作实践
2	【GitHub开源AI精选】德国比勒费尔德大学TryOffDiff——高保真服装重建的虚拟试穿技术新突破
3	【GitHub开源AI精选】哈工大（深圳）& 清华力作 FilmAgent：剧本自动生成 + 镜头智能规划，开启 AI 电影制作新时代
4	【GitHub开源AI精选】Lumina - Image 2.0 文生图模型，以小参数量实现高分辨率多图生成新突破
5	【GitHub开源AI精选】探索 Mobile-Agent：X-PLUG 推出的创新型移动智能操作代理
6	【GitHub开源AI精选】吴恩达团队开源VisionAgent：用自然语言开启计算机视觉新时代
7	【GitHub开源AI精选】Oumi：一站式AI开发平台，涵盖训练、评估与部署全流程
8	【GitHub开源AI精选】深入剖析RealtimeSTT：开源实时语音转文本库的强大功能与应用
9	【GitHub开源AI精选】PodAgent：多智能体协作播客生成框架，自动化打造高质量播客，赋能内容创作与品牌传播
10	【GitHub开源AI精选】OpenManus开源AI工具：3小时复刻Manus，39.5k星
11	【GitHub开源AI精选】OpenGlass：大模型赋能的开源方案，25美元打造智能眼镜，支持语音控制+AR叠加
12	【GitHub开源AI精选】AppAgentX：西湖大学发布可自主进化的手机智能体，实现GUI操作的高效与智能
13	【GitHub开源AI精选】Agent-S架构揭秘：低代码+多模态融合的智能体新范式
14	【GitHub开源AI精选】Open-Interface：大模型驱动的计算机“自动驾驶”系统｜自然语言操控的自动化工具
15	【GitHub开源AI精选】2025年AI工程师必备！AgentOps五大功能重构智能体开发流程
16	【GitHub开源AI精选】LangManus：社区驱动的多智能体AI自动化框架，开启复杂任务处理新纪元
17	【GitHub开源AI精选】autoMate：AI 驱动的本地自动化助手，用自然语言解锁高效办公，让电脑任务自己动起来
18	【GitHub开源AI精选】Sitcom-Crafter：北航联合港中文等高校打造的剧情驱动3D动作生成系统
19	【GitHub开源AI精选】Local Deep Researcher：本地化部署的AI研究助手，零门槛开启智能研究
20	【GitHub开源AI精选】Browser Use：开源AI自动化工具，让AI像人类一样操控网页
21	【GitHub开源AI精选】LLaVA-Med：微软打造的生物医学领域多模态AI助手，助力医疗智能化
22	【GitHub开源AI精选】RF-DETR：Roboflow 的实时目标检测模型『边缘设备鹰眼』，低至160FPS的工业级检测利器
23	【GitHub开源AI精选】MegaTTS 3：字节跳动开源语音利器，吊打VALL-E，自然度逼近真人录音
24	【GitHub开源AI精选】LocAgent：斯坦福联合耶鲁大学等机构推出的代码问题定位智能体
25	【GitHub开源AI精选】WhisperX：70倍实时语音转录！革命性词级时间戳与多说话人分离技术
26	【GitHub开源AI精选】Crawl4AI：LLM专属极速开源爬虫利器、1秒处理百万级数据
27	【GitHub开源AI精选】Oliva：开源语音RAG助手，一句话秒搜海量数据，多AI协作颠覆传统搜索
28	【GitHub开源AI精选】UFO²：微软开源的 Windows 桌面 Agent 操作系统，开启智能自动化新时代
29	【GitHub开源AI精选】ebook2audiobook：AI驱动的电子书转有声书利器，支持1107种语言+语音克隆
30	【GitHub开源AI精选】WebThinker：赋能大型推理模型的自主科研新范式
31	【GitHub开源AI精选】ZeroSearch：阿里巴巴开源的大模型搜索引擎框架，无需真实搜索引擎交互
32	【GitHub开源AI精选】Toolkami：极简AI Agent框架，七种工具实现高效轻量化开发
33	【GitHub开源AI精选】Docext：NanoNets 打造的文档提取利器，本地化、高效能、免费开源
34	【GitHub开源AI精选】SketchVideo：手残党福音！草图秒变大片，快手黑科技让创作效率飙升300%
35	【GitHub开源AI精选】NLWeb：微软开源的自然语言交互利器，让网站秒变智能AI应用
36	【GitHub开源AI精选】ScrapeGraphAI：基于LLM的智能爬虫，多页面爬取、语音生成，开启数据提取新纪元
37	【GitHub开源AI精选】FaceShot：同济大学联合上海 AI Lab 推出的无需训练肖像动画生成框架
38	【GitHub开源AI精选】Minion Agent：开源界的“全能王”，深度研究、自动规划全搞定
39	【GitHub开源AI精选】AgenticSeek：开源本地通用AI Agent，打造自主执行任务的智能助手
40	【GitHub开源AI精选】Morphik：开源多模态检索增强生成工具，助力AI应用开发
41	【GitHub开源AI精选】TEN VAD：高性能实时语音活动检测系统，助力AI对话系统高效交互
42	【GitHub开源AI精选】Google AI Edge Gallery：谷歌赋能的离线AI模型探索利器
43	【GitHub开源AI精选】PandasAI：一键开启数据对话时代，非技术用户也能轻松上手
44	【GitHub开源AI精选】ContentV：字节跳动开源的高效文生视频模型框架，助力AI视频生成技术突破
45	【GitHub开源AI精选】VRAG-RL：阿里通义推出的多模态RAG推理框架，助力视觉信息理解与生成
46	【GitHub开源AI精选】MultiTalk：中山大学与美团联合打造的音频驱动多人对话视频生成框架
47	【GitHub开源AI精选】Salesforce开源项目MAS-Zero：零监督下的多智能体系统设计框架
48	【GitHub开源AI精选】InftyThink：浙大联合北大打造的无限深度推理范式，突破大模型长推理瓶颈
49	【GitHub开源AI精选】RAG-Anything：港大开源利器、让AI真正理解复杂文档，PDF、表格、公式全能读
50	【GitHub开源AI精选】PreenCut深度解析：开源AI视频剪辑利器，用自然语言一句话精准定位片段
51	【GitHub开源AI精选】TradingAgents-CN：基于多智能体LLM的中文金融交易决策框架深度解析
52	【GitHub开源AI精选】KlicStudio：极简 AI 视频翻译配音工具，让跨平台内容本地化效率翻倍，GitHub狂揽7.9k星
53	【GitHub开源AI精选】JoyAgent-JDGenie：京东开源的通用多智能体系统，助力AI应用落地
54	【GitHub开源AI精选】SuperDesign：开源AI设计Agent，让你的设计从想法到实现只需60秒
55	【GitHub开源AI精选】WeKnora：腾讯开源的文档理解与语义检索框架，助力智能问答与知识管理
56	【GitHub开源AI精选】LandPPT：开源AI PPT生成工具，助力演示文稿高效创作
57	【GitHub开源AI精选】NeuralAgent：开源桌面AI助手，助力高效生产力与自动化任务执行
58	【GitHub开源AI精选】开源AI桌面助手Glass：实时屏幕捕捉与音频识别，助力高效办公
59	【GitHub开源AI精选】MiroFlow：开源多Agent系统开发框架，助力AI大模型高效开发
60	【GitHub开源AI精选】ScreenCoder：开源智能UI截图转代码工具，助力前端开发自动化
61	【GitHub开源AI精选】OxyGent：京东开源的多智能体协作框架，助力高效智能系统开发
62	【GitHub开源AI精选】Hugging Face AI Sheets：开源无代码构建、丰富和转换数据集的利器
63	【GitHub开源AI精选】Coze Studio：字节跳动开源的AI智能体开发平台，一站式构建与部署AI应用
64	【GitHub开源AI精选】Chaterm：开源的AI终端工具，运维版Cursor，助力高效云管理
65	【GitHub开源AI精选】MobileUse：由MadeAgents打造的分层反思驱动的移动自动化GUI代理
66	【GitHub开源AI精选】WhisperLiveKi：开源实时语音识别利器，实时转写+说话人识别+完全本地部署，一键搞定会议纪要
67	【GitHub开源AI精选】Open-Fiesta：开源AI聊天平台，多模型并行对比的新选择
68	【GitHub开源AI精选】AgentScope：阿里开源多智能体核弹、并行工具+Actor架构+秒级介入+沙箱隔离
69	【GitHub开源AI精选】Super Agent Party：开源3D AI桌面伴侣，开启智能交互新体验(聊天、写代码、控直播）
70	【GitHub开源AI精选】Parlant：为企业级应用而生的开源LLM智能体框架，打造“AI员工监工”，让LLM可解释、可审计
71	【GitHub开源AI精选】AI-Video-Transcriber：开源AI视频转录与摘要工具，支持30+平台，赋能高效内容处理
72	【GitHub开源AI精选】DeepDoc：开源本地知识库深度研究工具，多格式文档解析与智能报告生成
73	【GitHub开源AI精选】Strix：AI驱动的安全测试先锋，助力应用安全防护
74	【GitHub开源AI精选】通义DeepResearch：开源深度研究智能体，助力复杂信息检索与多步推理
75	【GitHub开源AI精选】Presentation-AI：ALLWEONE团队打造的开源AI演示文稿生成工具
76	【GitHub开源AI精选】SciToolAgent：浙大开源的知识图谱驱动的科研利器
77	【GitHub开源AI精选】FireRedChat：小红书开源的全双工语音交互系统，开启智能语音新时代
78	【GitHub开源AI精选】OpenLens AI：清华推出的医学研究全自主AI助手，开启科研新纪元
79	【GitHub开源AI精选】StableAvatar：复旦大学联合微软亚洲研究院推出的无限时长音频驱动虚拟形象视频生成技术框架

前言

在当今数字化时代，虚拟形象视频生成技术正逐渐成为人工智能领域的一个热门研究方向。从虚拟助手到数字人，这项技术的应用场景广泛且具有巨大潜力。然而，现有的音频驱动视频生成模型在生成长视频时往往面临诸多挑战，如面部和身体变形、色彩漂移以及音频与嘴唇动作不同步等问题。为了解决这些问题，复旦大学联合微软亚洲研究院、西安交通大学及腾讯混元团队共同研发了StableAvatar，这一创新技术有望为虚拟形象视频生成领域带来重大突破。
在这里插入图片描述

一、项目概述

二、核心功能

（一）无限长度视频生成

StableAvatar能够生成无限长度的高质量虚拟形象视频，突破了传统模型在长视频生成中的限制。该模型通过创新的时间步感知音频适配器和动态加权滑动窗口策略，有效解决了长视频生成中的身份一致性、音频同步和视频平滑性问题，确保生成的视频在任意长度下都能保持高质量和自然流畅性，为虚拟形象视频生成开辟了新的可能性。

（二）无需后处理

StableAvatar直接生成高质量的视频，无需任何后处理工具，如换脸工具或面部修复模型。这一特性不仅简化了视频生成流程，还显著降低了生成成本和时间消耗。用户可以快速获得高质量的视频结果，无需额外的编辑和修复工作，大大提高了视频生成的效率和实用性。

（三）多样化应用

StableAvatar支持全半身、多人物、卡通形象等多种虚拟形象的动画生成，适用于虚拟现实、数字人创建、虚拟助手等多种场景。无论是创建逼真的数字人形象，还是生成有趣的卡通动画，StableAvatar都能满足不同用户的需求，为虚拟形象视频生成提供了广泛的应用前景和高度的灵活性。
在这里插入图片描述

三、技术揭秘

（一）时间步感知音频适配器（Time-step-aware Audio Adapter）

该模块能够将输入的音频信息高效编码为视频生成模型可理解的时序特征信号，确保每一帧视觉内容与对应时间点的音频信息实现精准对齐。通过引入时间上下文建模，系统不仅能保持口型的同步性，还能实现对头部微动作、表情自然过渡等细节的连续控制，从而支持生成长时间且视觉一致性极高的动态视频。

（二）音频原生引导机制（Audio Native Guidance Mechanism）

在推理过程中，该机制利用模型自身演进的联合音频-潜在预测作为动态引导信号，进一步增强音频同步性，避免声音与嘴型不同步的问题。

（三）动态加权滑动窗口策略（Dynamic Weighted Sliding-window Strategy）

通过在时间维度上融合潜在变量，该策略能够减少视频片段之间的过渡不连续性，提高长视频的平滑性。

四、应用场景

（一）虚拟现实（VR）和增强现实（AR）

在虚拟现实（VR）和增强现实（AR）领域，StableAvatar能够生成高度逼真且自然的虚拟形象视频，为用户提供沉浸式的交互体验。通过将音频与虚拟形象的面部表情和动作精准同步，用户可以与虚拟角色进行自然流畅的对话和互动，仿佛置身于真实场景之中。

（二）虚拟助手和客服

传统的虚拟助手往往只能通过文字或简单的语音交互，缺乏生动的表情和动作。而StableAvatar生成的虚拟形象可以根据语音指令实时生成自然的面部表情和动作，使虚拟助手更加生动、更具亲和力。例如，在在线客服场景中，虚拟客服可以根据用户的语音问题做出相应的表情和手势，提供更加友好和高效的客户服务，提升用户的满意度和信任度。

（三）数字人创建

该模型能够快速生成具有高度一致性和自然动作的数字人视频，支持全半身、多人物和卡通形象等多种形式。无论是用于数字人直播、数字人广告还是数字人内容创作，StableAvatar都能满足不同场景的需求。通过输入一张人物图片和一段音频，就可以生成对应人物口型、表情与音频高度同步的视频，大大降低了数字人创建的门槛和成本，为数字人产业的发展提供了强大的动力。

（四）影视制作

在影视制作领域，它可以用于生成高质量的虚拟角色动画，减少特效制作的时间和成本。例如，在动画电影或电视剧的制作中，StableAvatar可以根据剧本中的音频和人物形象生成相应的动画视频，为动画师提供初步的动画素材，从而提高制作效率。

（五）在线教育和培训

通过生成虚拟教师或培训师的动画视频，StableAvatar可以根据语音内容进行自然的表情和动作展示，增强教学的互动性和趣味性。例如，在在线课程中，虚拟教师可以根据讲解内容做出相应的手势和表情，吸引学生的注意力，提高学习效果。

五、快速使用

（一）环境安装

根据显卡类型选择合适的命令进行环境安装。

适用于大多数NVIDIA显卡（CUDA 12.4）：

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.1.1 --index-url https://download.pytorch.org/whl/cu124
pip install -r requirements.txt
pip install flash_attn  # 可选，用于加速注意力计算

适用于Blackwell系列芯片（如RTX 6000 Pro）：

pip install torch==2.7.0 torchvision==0.22.0 torchaudio==2.7.0 --index-url https://download.pytorch.org/whl/cu128
pip install -r requirements.txt
pip install flash_attn

（二）下载模型权重

export HF_ENDPOINT=https://hf-mirror.com
pip install "huggingface_hub[cli]"
mkdir checkpoints
huggingface-cli download FrancisRing/StableAvatar --local-dir ./checkpoints

（三）克隆仓库代码

https://github.com/Francis-Rings/StableAvatar.git
cd StableAvatar

（四）音频提取与人声分离

提取音频：

python audio_extractor.py --video_path="path/to/video.mp4" --saved_audio_path="path/to/audio.wav"

分离人声：

pip install audio-separator[gpu]
python vocal_seperator.py --audio_separator_model_file="checkpoints/Kim_Vocal_2.onnx" --audio_file_path="path/to/audio.wav" --saved_vocal_path="path/to/vocal.wav"

（五）模型推理

使用inference.sh脚本进行模型推理，生成视频。可以根据需要修改脚本中的参数，如分辨率、音频路径、参考图像路径等。
inference.sh脚本内容如下：

export TOKENIZERS_PARALLELISM=false
export MODEL_NAME="path/StableAvatar/checkpoints/Wan2.1-Fun-V1.1-1.3B-InP"

CUDA_VISIBLE_DEVICES=0 python inference.py \
  --config_path="deepspeed_config/wan2.1/wan_civitai.yaml" \
  --pretrained_model_name_or_path=$MODEL_NAME \
  --transformer_path="path/StableAvatar/checkpoints/StableAvatar-1.3B/transformer3d-square.pt" \
  --pretrained_wav2vec_path="path/StableAvatar/checkpoints/wav2vec2-base-960h" \
  --validation_reference_path="path/StableAvatar/examples/case-1/reference.png" \
  --validation_driven_audio_path="path/StableAvatar/examples/case-1/audio.wav" \
  --output_dir="path/StableAvatar/output_infer" \
  --validation_prompts="A middle-aged woman with short light brown hair, wearing pearl earrings and a blue blazer, is speaking passionately in front of a blurred background resembling a government building. Her mouth is open mid-phrase, her expression is engaged and energetic, and the lighting is bright and even, suggesting a television interview or live broadcast. The scene gives the impression she is singing with conviction and purpose." \
  --seed=42 \
  --ulysses_degree=1 \
  --ring_degree=1 \
  --motion_frame=25 \
  --sample_steps=50 \
  --width=512 \
  --height=512 \
  --overlap_window_length=5 \
  --clip_sample_n_frames=81 \
  --GPU_memory_mode="model_full_load" \
  --sample_text_guide_scale=3.0 \
  --sample_audio_guide_scale=5.0

结语

StableAvatar作为首个端到端无限时长音频驱动的高保真人类视频生成框架，通过其创新的技术架构和核心机制，显著解决了现有技术在长视频生成中的关键问题，为虚拟形象视频生成领域带来了重大突破。其在性能和应用方面的卓越表现，使其在虚拟现实、数字人创建等多个领域具有广阔的应用前景。未来，随着技术的进一步发展和优化，StableAvatar有望为更多行业带来创新和变革。

项目地址

项目官网：https://francis-rings.github.io/StableAvatar/
GitHub仓库：https://github.com/Francis-Rings/StableAvatar
HuggingFace模型库：https://huggingface.co/FrancisRing/StableAvatar
技术论文：https://arxiv.org/pdf/2508.08248

在这里插入图片描述

😎 作者介绍：资深程序老猿，从业10年+、互联网系统架构师，目前专注于AIGC的探索（CSDN博客之星|AIGC领域优质创作者）
📖专属社群：欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码，回复‘入群’ 即刻上车，获取邀请链接。
💘领取三大专属福利：1️⃣免费赠送AI+编程📚500本，2️⃣AI技术教程副业资料1套，3️⃣DeepSeek资料教程1套🔥（限前500人）
如果文章内容对您有所触动，别忘了点赞、⭐关注，收藏！加入我们，一起携手同行AI的探索之旅，开启智能时代的大门！