论文链接:https://arxiv.org/abs/2508.19320v2

这份报告介绍了一个叫MIDAS的AI新技术,能让虚拟人像真人一样说话、表情自然,还能实时互动。它像“说话娃娃”升级版:你给一段语音或文字,它就能生成对口型、有表情的动态人像视频,支持多语言、多人对话。核心技术是把视频压缩成“小积木”,让AI一块块预测下一步,再还原成高清画面。团队还建了2万小时的数据库训练它,让虚拟人更逼真、互动更流畅。未来或用于网课、直播、客服等。

MIDAS: 多模态交互式数字人合成,通过实时自回归视频生成

Ming Chen 1∗^{1*}1 崔立元 1,2∗^{1,2*}1,2 张文远 1,3∗^{1,3*}1,3 张浩先 1^{1}1 周岩 1^{1}1 李晓寒 1^{1}1 唐松林 1^{1}1 刘继文 1^{1}1 廖伯瑞 1^{1}1 陈鹤佳 1^{1}1 刘晓强 1^{1}1 万鹏飞 1^{1}1

1^{1}1 Kling团队,快手科技 2^{2}2 浙江大学 3^{3}3 清华大学

摘要

近年来,交互式数字人视频生成技术引起了广泛关注并取得了显著进展。然而,构建一个能够实时与多种输入信号交互的实用系统对现有方法仍具有挑战性,这些方法通常面临计算成本高和可控性有限的问题。在这项工作中,我们引入了一个自回归视频生成框架,该框架支持流式交互多模态控制和低延迟外推。通过对标准大型语言模型(LLM)进行最小化修改,我们的框架接受包括音频、姿态和文本在内的多模态条件编码,并输出空间和语义上连贯的表示来指导扩散头去噪过程。为此,我们从多个来源构建了一个约20,000小时的大规模对话数据集,为训练提供丰富的对话场景。我们进一步引入了一种深度压缩自编码器,压缩率高达 64×64\times64× ,有效减轻了自回归模型的长期推理负担。在双工对话、多语种人合成和交互式世界模型上的大量实验突出了我们方法在低延迟、高效率和细粒度多模态可控性方面的优势。项目页面:https://chenmingthu.github.io/milm/。

1引言

条件驱动的人视频生成将静态肖像转化为动态、交互式的虚拟化身,使其语音与自然面部表情、身体动作和情感线索同步(Qi等人,2025;Lin等人,2025a;Xu等人,2024)。此类技术通过使人机交互更具吸引力和自然性,增强了数字通信,并为虚拟教育和创意媒体等未来应用开辟了有前景的途径。为此,一个实用的系统必须同时满足三个要求:接受并响应广泛范围的输入信号,实现低延迟交互,并在长时间生成范围内保持视觉和身份一致性。这些要求对现有方法提出了重大挑战。

为了满足这些要求,我们在多个方向上投入了大量努力。基于GAN的方法(Guo等人,2024;Qi等人,2025)能够生成高保真度的局部面部细节,但在全局表现力和平滑的时间过渡方面存在困难。视频扩散变换器(Tian等人,2024;2025;Cui等人,2024;Wei等人,2025)能够实现高质量的生成,但依赖于双向注意力和迭代去噪,这使得它们不适用于实时应用。尽管已经提出了各种技术来加速扩散推理(Lu等人,2025;Zhai等人,2024),但它们仍然面临通用性、保真度和速度之间的权衡。此外,大多数现有方法仅限于音频或文本等单模态控制信号,并且在生成开始前需要指定所有控制参数,这显著限制了数字人视频合成的丰富性和交互性。

最近,自回归模型通过根据历史输入生成标记为这些限制提供了一个有前景的解决方案(Deng等人,2025;Teng等人,2025)。这种范式不仅通过根据过去的帧调整未来的预测来实现灵活的交互,还支持任意长度的视频合成,同时避免了推理过程中双向注意力的计算开销。与此同时,多模态大语言模型(MLLMs)(Liu等人,2023;Wu等人,2024)在通过将变换器条件化于多样化的多模态输入来连接生成和理解方面显示出巨大的潜力。这些发展激励我们将语言建模与生成视频框架统一为一个端到端的多模态自回归架构,用于数字人视频生成。

在这项工作中,我们介绍了MIDAS。一个支持低延迟推理、多模态条件化和开放式生成的多模态交互式数字人合成框架。我们框架的核心是一个自回归大型语言模型(LLM),它根据多模态输入预测潜在空间中视频帧的演化。具体来说,我们设计了一个多模态条件投影器,将包括音频、姿态和文本在内的各种输入信号编码到一个共享的潜在空间中。这些多模态标记与帧标记连接起来,形成自回归模型的输入序列。帧标记通过一个精心设计的深度压缩自编码器(DC- AE)进行编码,该自编码器的空间压缩率为 64×64\times64× ,这显著降低了自回归主干的外推负担。自回归模型输出捕获空间和语义一致性的隐藏状态,然后传递到一个外部扩散头以渲染高质量的视频帧。在训练期间,自回归模型和扩散头以教师强制的方式进行联合优化,而推理通过下一帧预测进行,从而实现实时和可流式传输的动画生成。为了进一步减轻曝光偏差,我们引入了一种受控的噪声注入机制,该机制使用不同幅度的高斯噪声损坏上下文帧,从而模拟退化预测并教会模型在推理期间从不完美的历史中恢复。我们此外还构建了一个大约20,000小时的大规模对话数据集,该数据集收集自在线来源和自定义录制的会话。这些对话经过仔细分割、标注和后期处理,为我们的模型在一般的数字人对话场景中奠定了坚实的基础。我们通过在双向对话和多语言人合成上的广泛实验验证了我们的方法的有效性。我们还展示了其将更丰富的控制信号结合起来的潜力,以充当一个通用的交互式世界模型。总之,我们做出了以下贡献:

·通过指令标记进行多模态控制。我们构建了一个多模态架构,将各种控制信号(文本、音频和姿态)编码为全局指令标记。这些标记对视频生成的自回归模型进行条件化,从而实现时间上连贯且表达丰富的潜在帧进展。·基于扩散渲染的因果潜在预测。利用自回归框架的因果结构,我们的系统逐帧预测潜在标记。每个预测的表示由一个轻量级的扩散头处理,该头通过仅几个去噪步骤恢复高质量帧。这种设计支持可变长度、低延迟的视频生成,非常适合交互式应用。·具有高压缩率的自动编码器高效表示。我们引入了一个深度压缩自动编码器,压缩率高达 64×64\times64× 。这种紧凑的潜在表示显著减少了视频标记的数量,从而降低了自回归模型的计算需求,同时保留了重建保真度。

2相关工作

语音驱动的人脸生成。动画化人类肖像代表了计算机视觉中的一个具有挑战性的前沿。传统方法(Zhou等人,2020;Thies等人,2020;Suwa- janakorn等人,2017)依赖于中间表示,例如3D人脸模型或2D关键点,这些表示需要复杂的预处理流程,并限制了身份的泛化。早期的方法(Guo等人,2024;Qi等人,2025)主要关注于操纵细粒度的人脸细节(注视、唇部运动、肌肉动态),但本质上牺牲了生动性。这造成了虚拟人与真人之间的感知差距,尽管它们在局部上具有一致性。最近的进展(Xu等人,2024;Jiang等人,2024)使用扩散模型将音频特征和面部运动变化映射到共享的潜在空间中。当代的工作(Wei等人,2025;Tian等人,2025;Chen

等人,2025),受DiT架构的启发,已经开发了无关键点、文本驱动的端到端扩散模型,显著提高了表现力和控制精度,生成了具有丰富情感细节的逼真面部表情。OmniHuman- 1(Lin等人,2025b)引入了一个统一框架,集成了面部、身体和手部动作,展示了扩展扩散模型在综合人体动画合成中的潜力。其他方法通过结合多个语音输入来扩展这一范式,以实现在视频生成中的多说话者对话(Kong等人,2025;Huang等人,2025)。然而,这些方法通常在整个序列中冻结控制条件,从而限制了它们在实时交互合成中的应用。

实时视频生成。实时生成富有表现力和响应性的肖像视频仍然是一个基本挑战。传统的基于GAN的方法(Wang等人,2021年;Qi等人,2025年;Guo等人,2024年)采用两阶段流程:首先提取显式的运动表示,然后使用身份信息渲染最终图像。扩散模型的兴起将研究转向隐式运动潜空间(Xu等人,2024年;Drobyshev等人,2022年;Liu等人,2024年),实现了更灵活的控制。在推理过程中,轻量级生成器将预测的运动序列与外观特征相结合,以较低的计算成本合成动画。然而,它们被限制为固定长度的输入,限制了内容外推的灵活性。大多数方法还依赖于单模态控制信号,并且需要所有参数预先指定,这限制了表现力和实时干预。此外,基于DiT的去噪过程引入了显著的计算负担。虽然去噪过程可以通过蒸馏或跳跃路径(Zhai等人,2024年;Ma等人,2024年)加速,但这些技术不可避免地在效率和高质量合成之间带来权衡。最近的创新(Low & Wang,2025年;Yin等人,2025年;Kim等人,2025年)将预训练的扩散Transformer蒸馏为稀疏因果注意力作为自回归模型,以实现实时性能。这些进步表明了向更高效、高质量和时序一致的视频生成能力迈进。为了解决这些限制,我们提出了一种基于自回归模型的视频生成框架,该框架能够在多模态条件下实现实时数字人控制和合成。

3方法

我们的目标是实现多种模态条件下实时合成富有表现力和可控性的人物视频。该框架将多模态信号(例如,音频、姿态或文本)作为输入,并生成连贯的视频序列,确保低延迟、时空一致性和灵活可控性。为了支持这一点,我们首先构建了一个约20,000小时的大规模对话数据集(第3.1节)。然后,我们设计了一种高度压缩的帧标记器和具有强表现力的多模态条件编码器(第3.2节)。基于这些组件,我们开发了一个用于实时渲染和交互的自回归模型(第3.3节)。最后,我们描述了我们在框架中采用的训练策略(第3.4节)和推理策略(第3.5节)。

3.1数据集表示

训练数据集包括从三个来源收集的单人和双人语音内容:(1)公开可用的基准(VoxCelebl/2 (Nagraniy et al., 2017; Chung et al., 2018), TED- LRS (Afouras et al., 2018));(2)经过策划的在线视频,包括播客、访谈、脱口秀和公开演讲;以及(3)包含受控双人互动的自定义录制会话。数据处理流程包括三个阶段:预处理、注释和合成数据构建,以及后处理。处理流程如图1所示。预处理。我们应用镜头边界检测和说话人检测(ASD)以实现时间分割,随后通过人脸和身体检测过滤出人类主体。每个分割的片段随后在视觉质量、音频质量和唇同步精度方面进行严格评估。

标注和合成数据构建。此阶段包括质量评估、标题生成、情感标注和自动语音识别(ASR)转录。单人的数据子集通过语义分析和文本到语音(TTS)合成进一步转换为对话格式。


图1:数据集管道概述。该流程包括三个主要阶段:(1)数据收集和预处理;(2)标注和数据构建;(3)后处理。


图2:我们的深度压缩自动编码器(DC-AE)的说明。我们首先使用64的空间压缩率训练DC-AE。在第二阶段,我们执行因果时间模块训练。然后在第三阶段,我们使用8帧时间窗口对全模型进行微调。

后处理。标注数据经过人工审核结合自动采样以确保平衡和高品质的子集。最终数据集包含约20,000小时的预训练视频数据和超过400小时的监督微调(SFT)数据。

3.2 多模态表示

3.2.1 帧标记表示

对于实时AR视频生成,我们采用自动编码器将视觉输入转换为满足两个关键标准的紧凑潜在表示。首先,表示必须在高空间压缩率下实现令人满意的重建精度,以便语言模型主干高效处理。其次,为了支持实时生成,时间维度保持未压缩。然而,在编码和解码过程中建模时间依赖性至关重要,这促进了基于LLM的自回归生成,并确保了时间上连贯、无闪烁的解码。


图3:我们模型架构的概述。我们的流式生成框架以块为单位处理输入,其中每个块包含条件标记(音频、姿态、文本),然后是帧标记。我们在训练过程中应用教师强制,而在推理过程中执行下一帧预测。我们用高斯噪声污染帧标记以减轻曝光偏差。AR输出作为去噪头扩散的指导。这里, nnn 表示每个块中的帧数,块边界(虚线)表示可以重新启动推理过程并使用更新的条件输入的位置。

为了满足这些要求,我们首先训练一个空间压缩率为64和128通道的深度压缩自动编码器(DC- AE),它联合解决了空间效率和时序一致性。该模型基于空间到通道转换特征学习残差,以实现高效的高空间压缩。为了捕捉动态,在每个空间卷积层之后插入时间因果3D卷积层和基于RoPE的注意力层。所有时间卷积都采用非对称复制填充。在第二阶段,我们执行时间模块训练,然后在第三阶段使用8帧时间窗口进行全模型微调。在推理过程中,我们缓存每帧的时间特征(3D- conv输出和键/值缓存),并使用5帧历史记录以逐帧方式执行流式编码和解码。这种流式范式支持实时、自回归的逐帧生成,同时在视频解码中保持时间一致性。尽管更长的历史记录可能产生更好的重建效果,但我们的5帧窗口在计算效率和质量之间提供了实用的权衡。此外,当使用多帧滑动窗口进行自回归AR视频生成时,该框架可以扩展以支持每个窗口内的非因果时间压缩,同时保持跨窗口的因果流式时间编码和解码。

3.2.2 条件表示

我们的方法接受一张单人肖像图像和一组跨越多种模态(音频、姿态序列、标题)的控制条件,以引导生成过程朝向特定的运动风格或语义目标。

为了统一这些异构输入,我们引入了一个多模态条件投影器,将每个信号编码到共享的潜在空间中。为了简化,我们省略了最终将所有模态表示对齐到同一维度的线性投影层。

  • 音频: A∈RT×Da→faudio(A)∈RT×Na×DhA \in \mathbb{R}^{T \times D_a} \rightarrow f_{\mathrm{audio}}(A) \in \mathbb{R}^{T \times N_a \times D_h}ART×Dafaudio(A)RT×Na×Dh ,其中 TTTDaD_aDa 分别表示音频的序列长度和采样率,而 NaN_aNaDhD_hDh 分别表示编码音频token的数量和维度。我们将每个80ms的音频片段重采样为16kHz,并使用Whisper-VQ(Radford等人,2022年)模块对其进行编码,将音频片段压缩为单个音频token表示 (Na=1)(N_a = 1)(Na=1)

·姿态: P∈RT×Kp×Dp→fpose(P)∈RT×Np×DhP\in \mathbb{R}^{T\times K_p\times D_p}\to f_{\mathrm{pose}}(P)\in \mathbb{R}^{T\times N_p\times D_h}PRT×Kp×Dpfpose(P)RT×Np×Dh ,其中 KpDpK_{p}D_{p}KpDp 分别表示关键点的数量和维度。我们使用关节速度来表示姿态轨迹,而不是静态关键点。这些速度是连续帧中对应关节位置差值的计算结果。使用线性层将每帧的轨迹编码为 Np=10N_{p} = 10Np=10 token,这些token捕获了后续建模所需的关键运动动态。

·文本: X∈RTch×L→ftext(X)∈RTch×Nx×DhX\in \mathbb{R}^{T_{ch}\times L}\to f_{\mathrm{text}}(X)\in \mathbb{R}^{T_{ch}\times N_x\times D_h}XRTch×Lftext(X)RTch×Nx×Dh ,其中 Tch,LT_{ch},LTch,L 分别表示块的数量、与每个块对齐的文本序列的长度。我们采用预训练的T5编码器(Raffel等人,2020年)将文本条件转换为具有 Nx=256N_{x} = 256Nx=256 个token的文本嵌入。

3.3 模型架构

3.3.1 自回归模型

我们的方法利用了一个开源的大型语言模型(Yang等人,2024)作为自回归主干,无需进行架构修改,利用其固有的序列生成能力。模型的预训练权重和Transformer架构为建模视频序列中的时间依赖关系提供了坚实的基础。

为了实现高效的流式生成,我们将输入和输出组织成逻辑块,其中每个块包含对应于6帧的多模态标记序列。具体来说,每个块的表示由从左到右顺序连接的6个音频标记、60个姿态标记和256个文本标记组成。在这些多模态标记之后,我们附加了参考图像标记以及要生成的6个目标帧的标记。每帧的标记数由空间分辨率决定。在我们的实验中,我们为每帧分配高达60个标记,支持高达 384×640384\times 640384×640 的图像分辨率。此设置可以轻松扩展以适应更高的分辨率。我们结构化的标记组织支持流式控制输入和序列输出生成,提供实时响应,同时保持块之间的上下文连贯性,如图3所示。

我们还为我们的多模态自回归框架设计了一种专门的帧级因果注意力掩码,如图4所示。在每个块中,条件标记可以访问所有后续帧标记,而帧标记仅限于仅关注条件标记、先前的帧标记及其帧内标记,并使用全注意力。这种掩码设计联合强制执行时间因果关系和帧级一致性,为可控的多模态生成提供了一种可靠的机制。

对于帧预测,我们采用了一种受大型语言模型中的标记预测机制启发的流匹配方法。我们的系统在时间t的前向传递中直接预测帧 t+1t + 1t+1 的表示,从而消除了对占位符标记的需求。


图4:我们用于多模态式流生成的因果注意力掩码的示意图。

自回归生成过程表示为

p(C,x1,x2,…,xN)=∏i=1Np(xi∣C,x1,x2,…,xi−1),(1) p(C,x_1,x_2,\dots,x_N) = \prod_{i = 1}^{N}p(x_i|C,x_1,x_2,\dots,x_{i - 1}), \tag{1} p(C,x1,x2,,xN)=i=1Np(xiC,x1,x2,,xi1),(1)

其中 CCC 表示多模态条件信号(音频、姿态、文本),而 xix_{i}xi 表示第 iii 帧视频的标记。这种单步预测策略具有三个关键优势:(1)它支持训练过程中的直接教师强制,显著提高了训练效率;(2)它允许逐帧生成,无需迭代优化步骤;(3)它通过避免每帧多次前向传递来降低计算开销。

3.3.2扩散头

我们的扩散头充当一个专门渲染器,将自回归预测转换为高质量视频帧。受MAR(Li等人,2024)启发,我们将自回归模型的输出作为条件信号注入扩散过程,但有一个关键区别,我们完全消除了掩码建模。由于标记之间的空间关系和语义连贯性已经被我们的LLM主干隐式建模。扩散组件只需要专注于从条件输入中降噪和渲染干净帧。

这种简化的方法提高了计算效率,同时保持了视觉保真度。扩散头作为一个精炼机制,而不是处理时空建模的全部复杂性。对于扩散组件的架构设计,我们探索了多个选项,包括基于标准MLP的架构和更复杂的DiT设计(Chen等人,2023年)。后者在字符渲染的结构一致性方面提供了更强的保证,仅需要对条件注入机制进行少量修改。

3.4训练策略

我们的训练方法解决了两个关键挑战:有效的下一帧预测和减少曝光偏差。我们训练自回归主干结构直接从帧t预测帧 t+1t + 1t+1 ,将跨越帧1到 ttt 的序列映射到相应的帧2到 t+1t + 1t+1 的序列。这种前移的预测消除了对占位符的需求,同时保持了时间连贯性。

自回归模型出于在真实输入(教师强制)上训练和在自我生成的、可能不完美的预测上进行推理之间的差异,本质上会受到曝光偏差的影响。这种不匹配会导致误差累积和长序列上的快速质量下降。为了弥补这个差距,我们遵循(Valevski等人,2024年)并采用了一种受控的噪声注入策略进行训练。上下文帧通过对其潜在添加不同幅度的高斯噪声而被破坏,从而模拟推理时遇到的不完美预测。我们同时将噪声级别作为条件信号提供给模型,使其适应不同的输入质量级别。

具体来说,我们统一设置噪声水平,最高噪声尺度为0.5,并将其离散化为20个桶,并为每个桶学习一个专门的嵌入。对于每个批次,我们为每个帧随机确定一个从0到19的噪声水平ID。这些ID通过一个可学习的嵌入器映射到相应的噪声嵌入,并扩展以匹配帧标记的维度。噪声是通过根据采样的损坏水平在原始潜空间和高斯噪声之间进行插值来应用的,遵循

xnoisy=σ⋅ϵ+(1−σ)⋅x,(2) x_{noisy} = \sigma \cdot \epsilon +(1 - \sigma)\cdot x, \tag{2} xnoisy=σϵ+(1σ)x,(2)

其中 σ\sigmaσ 是噪声水平, ϵ∼N(0,I)\epsilon \sim \mathcal{N}(0,I)ϵN(0,I) 是高斯噪声。这种方法通过教导模型从损坏的上下文中恢复,系统地弥合了训练和推理之间的域差距。它使网络能够纠正先前生成的帧中的错误,这对于在长序列中保持帧质量和时间一致性至关重要。

对于多模态训练,我们使用一致的标记组织模式组合多样化的数据集(音频到视频、姿态到视频等):音频标记,然后是姿态标记、文本标记和帧标记。对于缺少某些条件信号的数据集,我们采用特殊的占位符标记以保持跨异构输入的结构一致性。在推理期间,相同的标记组织允许根据需要灵活组合不同的模态。

训练目标遵循流匹配公式:

L(θ)=Ex0,x1,t∣∣vθ(x(t),t)−v∗(x0,x1)∣∣22],x(t)=(1−t)x0+tx1,v∗(x0,x1)=x1−x0,(3) \begin{array}{rl} & {\mathcal{L}(\theta) = \mathbb{E}_{x_0,x_1,t}||v_\theta (x(t),t) - v^* (x_0,x_1)||_2^2 ],}\\ & {x(t) = (1 - t)x_0 + tx_1,\quad v^* (x_0,x_1) = x_1 - x_0,} \end{array} \tag{3} L(θ)=Ex0,x1,t∣∣vθ(x(t),t)v(x0,x1)22],x(t)=(1t)x0+tx1,v(x0,x1)=x1x0,(3)

where x0∼pdata(x)x1∼pnoise(x)x_0\sim p_{data}(x)x_1\sim p_{noise}(x)x0pdata(x)x1pnoise(x) ,表示干净的靶帧和噪声分布,分别。这个目标引导模型学习将噪声表示转换为干净帧的最佳失量场。


图5:多说话者数字对话与音频驱动头像。说话者1(顶部)和说话者2(底部)展示轮流对话,相应的音频波形以蓝色和绿色显示。

对于长时间生成,我们引入了一个使用特定身份数据、更高分辨率和帧率(12.5fps → 25fps)的专门后训练阶段。与依赖大量特定身份数据(Ao,2024)的先前方法不同,我们的方法有效地利用有限的但专注的数据集来减少误差累积。这种有针对性的适配能够在长时间内(长达一小时)实现稳定、高质量的视频合成,与仅预训练基线相比,质量退化最小。

3.5 推理策略

在推理过程中,我们将生成过程组织成480ms的时间块,以实现高效的流式传输。在每个块内,自回归模型按顺序生成帧标记,然后将这些标记传递给扩散头进行去噪。完成一个块后,模型继续下一个块,从而实现连续的视频生成,无需一次性处理整个序列。

为确保视觉一致性,我们对每个推理步骤内的所有帧应用统一的噪声水平,该水平可以调整以优化质量。即使添加的噪声很少,我们在时间稳定性方面也观察到与标准自回归生成相比的显著改进。这种受控的噪声设计确保了时间一致性,同时简化了去噪过程。

对于较长的推理周期,我们实施了受FAR(Gu等人,2025年)启发的帧截断策略,该策略认识到在某个时间距离之外的历史帧不再提供有用信息,反而可能引入误差累积。通过将上下文窗口限制在最近的8个块内并丢弃低相关性的历史帧,我们的系统有效地减少了累积误差,同时保留了用于连贯运动合成的关键时间依赖关系。

4 实验

4.1 实现细节。

我们的模型使用DeepSpeedZeRO- 2优化框架在64块NVIDIAH800GPU上训练了大约7天。我们采用bfloat16精度,并在1.0处应用梯度裁剪以确保数值稳定性。我们使用AdamW作为优化器,学习率为5.0 ×


图6:跨语言歌唱生成与同步唇动。我们的模型准确渲染了跨多种语言的唇同步,展示了模型对跨语言音素到视觉音素映射的精细理解,而无需显式语言识别。

10−510^{- 5}105 用于主模型和预训练组件,结合余弦学习率调度器、1000个预热步骤和0.01的权重衰减。训练总共进行了100个epoch,每个设备的批处理大小为2。自回归主干基于Qwen2.5- 3B(Yang等人,2024),而扩散头遵循PixArt- α\alphaα 架构(Chen等人,2023),参数量约为0.5B。我们在训练和推理过程中都采用4步去噪,我们发现这能在效率和合成质量之间提供一个有效的平衡。

4.2 定性结果。

在实验中,我们展示了由音频和参考图像驱动的实时数字人生成结果。我们将姿态和文本条件作为未来工作,这可以通过将相应的模态编码整合到我们的框架中来实现。

双工对话。图5展示了我们的系统支持数字头像之间进行自然轮流对话,并具有同步的音视频响应。每个头像在对方说话时显示适当的倾听行为,并在其对应的音频输入驱动下,通过同步的唇部动作和面部表情变得生动。音频波形(以蓝色和绿色可视化)清晰地界定了说话的回合。这展示了我们的模型在处理对话交互的复杂动态时,能够生成上下文相关的适当反应并保持说话者身份的能力。


图7:Minecraft数据集上的通用可控视频生成。通过将方向控制整合到我们的多模态条件编码中,我们实现了一个实时交互式世界模型,该模型表现出卓越的视觉一致性和记忆能力。

多语言长视频合成。我们在图6中展示了一个跨语言歌唱合成的示例,我们在其中实现了跨不同语言家族的精确音素级同步。我们的系统可以为普通话、日语和英语的歌曲生成逼真的唇部动作,并根据每种语言的独特语音特征进行调整,而无需特定的语言训练。值得注意的是,我们的模型能够生成长达4分钟的视频,而不会出现明显的漂移。请参考我们的项目页面查看视频可视化效果。

通用交互式视频生成。我们的模型架构还可以灵活地容纳任意模态条件作为输入,使其能够无缝应用于通用交互式视频生成任务。通过将多模态条件重新表述为方向控制信号并在Minecraft数据集(Yan等人,2023年)上进行训练,我们的方法有效地充当了一个实时交互式世界模型。如图7所示,我们的世界模型实现了强大的视觉一致性,并表现出显著的记忆能力。

5结论

在这项工作中,我们提出了MIDAS,一个用于实时视频生成的多模态交互式数字人合成框架。我们的方法基于基于LLM的自回归模型,结合轻量级扩散头,能够在多样化的多模态控制下实现低延迟、流式合成。我们此外引入了一种受控噪声注入策略,以减轻训练和推理之间的暴露偏差。为了支持训练,我们从多个来源构建了一个大规模对话数据集,并设计了一种深度压缩自动编码器,以减轻长时程推理负担。在双工对话、多语言人合成和通用交互式世界模型上的大量实验验证了我们的框架的有效性,展示了其在响应性、可控性和时间稳定性方面的优势。我们相信,我们的探索为可扩展和交互式数字人生成提供了一步坚实的进展,并将启发这一新兴领域未来的研究。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐