多模态内容生成：当AI同时驾驭文字、图像和视频

多模态生成的本质是建模多模态数据的联合分布跨模态语义鸿沟：文字是离散的语义符号，图像是连续的像素网格，视频是带时间维度的像素序列——如何让模型理解“文字描述”与“视觉/动态特征”的对应关系？生成一致性：生成的图像/视频必须严格匹配文字的所有细节（例如“红色披风的猫”不能生成蓝色披风），且视频的帧间动态必须连贯（不能出现“猫突然消失”的跳帧）；效率与质量的平衡：高保真生成（如4K视频）需要巨大的计算

AIGC应用创新大全

587人浏览 · 2026-02-14 22:08:49

AIGC应用创新大全 · 2026-02-14 22:08:49 发布

多模态内容生成：从跨模态对齐到通用智能的技术跃迁

元数据框架

标题：多模态内容生成：从跨模态对齐到通用智能的技术跃迁
关键词：多模态学习、跨模态对齐、扩散模型、Transformer、多模态大模型、生成式AI、跨域迁移
摘要：多模态内容生成是AI从“单模态工具”向“通用智能体”演进的核心方向——它要求模型同时理解文字的语义、图像的视觉特征、视频的时间动态，并生成逻辑一致的跨模态内容。本文从第一性原理拆解多模态生成的本质，系统覆盖理论框架、架构设计、实现细节与实际应用，结合DALL-E 3、Stable Video Diffusion等前沿案例，解答“AI如何同时驾驭文字、图像和视频”的核心问题。最终，我们将探讨多模态生成的伦理挑战与未来演化方向，为技术从业者提供从基础到战略的完整视角。

1. 概念基础：为什么多模态生成是AI的下一个奇点？

要理解多模态生成，首先需要回到人类认知的本质——我们通过多模态协同理解世界：看到“火焰”会联想到热度（触觉）、燃烧声（听觉）、“危险”的文字提示（语义）。AI要模拟这种智能，必须突破单模态的局限，实现跨模态的语义对齐与生成。

1.1 领域背景化：从单模态到多模态的必然

早期生成式AI是“单模态工具”：

文字生成：GPT-1（2018）用Transformer建模文字序列，但无法关联视觉信息；
图像生成：VQ-VAE（2017）用矢量量化编码图像，但无法理解文字描述；
视频生成：3D CNN（2016）能处理时间序列，但缺乏语义引导。

这些模型的瓶颈在于模态孤立——无法将文字的“语义指令”转化为图像的“视觉特征”，或视频的“动态序列”。直到2021年CLIP（Contrastive Language-Image Pretraining）的出现，AI才真正实现了跨模态语义对齐：通过对比学习让“文字嵌入”与“图像嵌入”在同一空间中关联（例如“猫”的文字与猫的图像在特征空间中距离更近）。

CLIP的突破直接催生了多模态生成的爆发：DALL-E 2（2022）基于CLIP实现“文字→图像”生成，Stable Video Diffusion（2023）扩展到“文字→视频”，而Flamingo（2022）则实现了“文字+图像→视频”的多条件生成。

1.2 问题空间定义：多模态生成的核心挑战

多模态生成的本质是建模多模态数据的联合分布，但要解决三个核心问题：

跨模态语义鸿沟：文字是离散的语义符号，图像是连续的像素网格，视频是带时间维度的像素序列——如何让模型理解“文字描述”与“视觉/动态特征”的对应关系？
生成一致性：生成的图像/视频必须严格匹配文字的所有细节（例如“红色披风的猫”不能生成蓝色披风），且视频的帧间动态必须连贯（不能出现“猫突然消失”的跳帧）；
效率与质量的平衡：高保真生成（如4K视频）需要巨大的计算资源，如何在推理速度与生成质量间权衡？

1.3 术语精确性：避免“多模态”的概念混淆

模态（Modality）：信息的呈现形式，如文字（Text）、图像（Image）、视频（Video）、音频（Audio）；
多模态（Multimodality）：同时处理两种或以上模态的能力；
跨模态对齐（Cross-modal Alignment）：将不同模态的特征映射到同一语义空间，实现“文字→图像”“图像→文字”的双向理解；
条件生成（Conditional Generation）：基于某一模态的输入（如文字）生成另一模态的输出（如图像/视频）。

2. 理论框架：多模态生成的第一性原理

多模态生成的核心是建模多模态数据的联合概率分布。我们从第一性原理推导其数学本质，并分析主流范式的优缺点。

2.1 第一性原理：联合分布与条件生成

假设我们有三种模态数据：文字 $X_t$ 、图像 $X_i$ 、视频 $X_v$ 。多模态生成的目标是学习联合分布 $P(X_t, X_i, X_v)$ ，并基于条件分布生成目标模态：

文字→图像： $X_i^* = \arg\max_{X_i} P(X_i | X_t)$ ；
文字→视频： $X_v^* = \arg\max_{X_v} P(X_v | X_t)$ ；
图像+文字→视频： $X_v^* = \arg\max_{X_v} P(X_v | X_t, X_i)$ 。

直接建模 $P(X_t, X_i, X_v)$ 几乎不可能——因为模态间的维度差异（文字是1D序列，图像是2D网格，视频是3D张量）会导致维度灾难。因此，我们需要通过跨模态对齐将不同模态映射到同一低维语义空间 $Z$ ，将联合分布分解为：
$P(Xt,Xi,Xv)=P(Z)⋅P(Xt∣Z)⋅P(Xi∣Z)⋅P(Xv∣Z)P(X_t, X_i, X_v) = P(Z) \cdot P(X_t | Z) \cdot P(X_i | Z) \cdot P(X_v | Z)$
其中：

$P (Z)$ 是语义空间的先验分布（通常假设为高斯分布）；
$P(X_m | Z)$ 是模态 $m$ 的条件生成分布（如文字生成用Autoregressive模型，图像生成用扩散模型）。

2.2 数学形式化：跨模态对齐的损失函数

跨模态对齐的核心是让同一语义的不同模态在 $Z$ 空间中距离更近。以文字-图像对齐为例，CLIP使用对比损失（Contrastive Loss）：
$L=−1N∑i=1N[log⁡esim(Zti,Zii)/τ∑j=1Nesim(Zti,Zij)/τ+log⁡esim(Zti,Zii)/τ∑j=1Nesim(Ztj,Zii)/τ]\mathcal{L} = -\frac{1}{N} \sum_{i=1}^N \left[ \log \frac{e^{sim(Z_t^i, Z_i^i)/\tau}}{\sum_{j=1}^N e^{sim(Z_t^i, Z_i^j)/\tau}} + \log \frac{e^{sim(Z_t^i, Z_i^i)/\tau}}{\sum_{j=1}^N e^{sim(Z_t^j, Z_i^i)/\tau}} \right]$
其中：

$Z_t^i$ 是第 $i$ 个文字的嵌入， $Z_i^i$ 是对应的图像嵌入；
$sim(⋅,⋅)sim(\cdot, \cdot)$ 是余弦相似度；
$τ\tau$ 是温度参数（控制分布的尖锐程度）。

对比损失的直观意义是：让匹配的文字-图像对在 $Z$ 空间中更接近，不匹配的对更远离。这一损失函数直接解决了“跨模态语义鸿沟”问题。

2.3 理论局限性：联合分布的边界

尽管跨模态对齐降低了建模难度，但多模态生成仍有三个理论局限：

数据稀疏性：多模态配对数据（如文字+图像+视频的三元组）远少于单模态数据，导致模型难以学习复杂的联合分布；
模态优先级：现有模型通常以文字为“主导模态”（因为文字的语义更明确），但视频的动态特征（如动作、节奏）难以用文字完全描述；
分布偏移：训练数据的分布可能与真实场景偏移（如训练数据中的“猫”多为家猫，生成野生猫时质量下降）。

2.4 竞争范式分析：统一架构 vs 混合架构

多模态生成的主流范式分为两类：

（1）统一架构（Unified Architecture）

用单一Transformer模型处理所有模态，例如Flamingo（DeepMind, 2022）。其核心设计是模态通用的自注意力层：文字、图像、视频均被编码为Token序列，输入同一Transformer进行联合建模。
优点：模态间交互更充分，容易扩展新模态；
缺点：模型参数量巨大（Flamingo-80B有800亿参数），训练成本极高。

（2）混合架构（Hybrid Architecture）

用模态专用编码器处理不同模态，再通过跨模态对齐模块融合特征，例如DALL-E 2（OpenAI, 2022）。其流程是：

文字→CLIP Text Encoder→文字嵌入；
文字嵌入→跨模态对齐→图像特征空间；
图像特征→扩散模型→生成图像。
优点：复用单模态预训练模型（如CLIP、Stable Diffusion），训练成本低；
缺点：模态间交互依赖对齐模块，灵活性不如统一架构。

3. 架构设计：多模态生成系统的组件分解

多模态生成系统的核心架构可分解为四大模块：模态编码器、跨模态对齐模块、生成解码器、控制模块。我们以“文字→视频”生成为例，详细解析各组件的设计逻辑。

3.1 系统分解：四大核心模块

 渲染错误: Mermaid 渲染失败: Parse error on line 2: ... --> B[Text Encoder (CLIP/GPT)] B -- -----------------------^ Expecting 'SQE', 'DOUBLECIRCLEEND', 'PE', '-)', 'STADIUMEND', 'SUBROUTINEEND', 'PIPE', 'CYLINDEREND', 'DIAMOND_STOP', 'TAGEND', 'TRAPEND', 'INVTRAPEND', 'UNICODE_TEXT', 'TEXT', 'TAGSTART', got 'PS'

各模块的功能：

模态编码器：将输入模态转化为语义嵌入（文字用CLIP/GPT，图像用ViT，视频用TimeSformer）；
跨模态对齐：将文字嵌入映射到视频的特征空间，确保语义一致；
生成解码器：基于对齐后的特征生成目标模态（视频用扩散模型或3D CNN）；
控制模块：输入额外约束（如视频帧率、分辨率），控制生成结果的属性。

3.2 组件交互模型：从文字到视频的流程

以Stable Video Diffusion（SVD）为例，“文字→视频”的生成流程如下：

文字编码：用CLIP Text Encoder将“一只猫追逐蝴蝶”转化为768维的文字嵌入；
跨模态对齐：用Adapter层将文字嵌入映射到视频的特征空间（SVD的视频特征维度是1280）；
视频生成：
- 初始化：生成一个随机噪声视频（16帧，512×512分辨率）；
- 去噪：用扩散模型的UNet结构，逐步根据文字嵌入去除噪声（50步去噪）；
- 后处理：将去噪后的视频调整为25fps帧率，输出最终结果。

3.3 设计模式应用：解决关键问题的工程技巧

（1）Adapter模式：跨模态迁移的轻量方案

跨模态对齐需要将文字嵌入映射到视频特征空间，但直接修改预训练模型（如CLIP）会导致过拟合。Adapter模式的解决思路是：在预训练模型的层间插入小型神经网络（Adapter层，通常包含两个线性层和一个激活函数），仅训练Adapter层的参数，保持预训练模型的权重不变。
Adapter层的数学形式：
$Zout=Zin+W2⋅σ(W1⋅Zin+b1)+b2Z_{\text{out}} = Z_{\text{in}} + W_2 \cdot \sigma(W_1 \cdot Z_{\text{in}} + b_1) + b_2$
其中 $σ\sigma$ 是激活函数（如GELU）， $W_1$ / $W_2$ 是Adapter层的权重（维度远小于预训练模型）。

（2）扩散模型：高保真视频生成的首选

视频生成的核心挑战是帧间一致性——相邻帧的内容必须连贯（如猫的位置不能突然跳跃）。扩散模型通过逐步去噪的方式自然解决了这一问题：

前向过程：将真实视频逐步添加高斯噪声，直到变成完全随机的噪声；
反向过程：训练UNet模型根据文字嵌入，逐步从噪声中恢复视频的细节。

扩散模型的帧间一致性来自时间注意力层（Time Attention）：UNet在处理第 $t$ 帧时，会参考第 $t - 1$ 帧的特征，确保动态连贯。

3.4 可视化：多模态生成的流程示意图

4. 实现机制：从代码到生产的关键细节

本节以“文字→视频”生成为例，讲解实现中的核心问题：算法优化、代码实现、边缘情况处理。

4.1 算法复杂度分析：扩散模型的效率瓶颈

扩散模型的推理复杂度为 $\cdot N \cdot C \cdot H \cdot W)$ ，其中：

$T$ ：去噪步数（通常50~100）；
$N$ ：视频帧数（通常16~32）；
$C$ ：通道数（通常3）；
$H / W$ ：图像分辨率（通常512×512）。

以 $T = 50$ 、 $N = 16$ 、 $H / W = 512$ 为例，单视频的推理运算量约为 $50 \times 16 \times 3 \times 512 \times 512 = 6.29 \times 10^8$ 次浮点运算（FLOPs）。这意味着在A10G GPU上，单视频推理时间约为2~3秒（取决于模型大小）。

4.2 优化代码实现：基于PyTorch的SVD实践

我们用Stable Video Diffusion（SVD）实现“文字→视频”生成，代码基于Hugging Face的diffusers库：

import torch
from transformers import CLIPTextModel, CLIPTokenizer
from diffusers import StableVideoDiffusionPipeline
from diffusers.utils import load_image, export_to_video

# 1. 初始化模型（使用预训练的SVD模型）
device = "cuda" if torch.cuda.is_available() else "cpu"
pipe = StableVideoDiffusionPipeline.from_pretrained(
    "stabilityai/stable-video-diffusion-img2vid-xt",
    torch_dtype=torch.float16,
    variant="fp16"
).to(device)

# 2. 文字提示与控制参数
prompt = "A cat chasing a butterfly in a garden, photorealistic, 4K"
negative_prompt = "blurry, low quality, distorted"  # 负提示词，避免低质量结果
video_frames = 16  # 生成16帧（约0.6秒，25fps）
video_resolution = (512, 512)

# 3. 生成视频
with torch.inference_mode():
    # （可选）用图像引导：如果有参考图像，可传入image参数
    # image = load_image("cat_reference.png")
    result = pipe(
        prompt=prompt,
        negative_prompt=negative_prompt,
        num_frames=video_frames,
        height=video_resolution[0],
        width=video_resolution[1],
        guidance_scale=7.5,  # 引导尺度，值越大越符合提示
        num_inference_steps=50  # 去噪步数
    )

# 4. 导出视频（保存为MP4）
export_to_video(result.frames[0], "cat_chasing_butterfly.mp4", fps=25)
print("视频生成完成！")

代码关键优化点：

混合精度训练：用torch.float16减少显存占用（SVD的fp16模型仅需8GB显存）；
负提示词：通过negative_prompt避免生成模糊、低质量的结果；
引导尺度：guidance_scale控制生成结果与提示的符合程度（值越大越准确，但可能过度拟合）。

4.3 边缘情况处理：解决生成中的“意外”

（1）文字描述模糊：如何保持一致性？

如果文字提示是“一只可爱的动物”（模糊描述），模型可能生成猫、狗或兔子。解决方法是增加约束条件：

加入更具体的细节：“一只可爱的橘猫，有白色的爪子”；
用参考图像引导：传入一张橘猫的图片，让模型参考图像特征生成视频。

（2）视频帧间抖动：如何保持动态连贯？

帧间抖动是视频生成的常见问题（如猫的位置突然跳跃）。解决方法是增加时间注意力层：
在扩散模型的UNet中加入Time Attention层，让第 $t$ 帧的生成参考第 $t - 1$ 帧的特征。SVD的预训练模型已内置此结构，无需额外修改。

（3）长视频生成：如何避免显存溢出？

生成32帧以上的长视频时，显存可能溢出。解决方法是分块生成：

将视频分成多个16帧的块；
用前一块的最后一帧作为后一块的“参考帧”，保持帧间连贯。

4.4 性能考量：生产环境的优化策略

在生产环境中，需要平衡推理速度与生成质量，常见优化策略：

模型蒸馏：用大模型（如SVD-XT）蒸馏小模型（如SVD-Tiny），减少参数量（从1.5B减少到300M），推理速度提升3倍；
量化：将模型从fp16量化为int8，显存占用减少50%，推理速度提升20%（需用TensorRT或ONNX Runtime）；
批量推理：同时处理多个文字提示，利用GPU的并行计算能力，提升吞吐量（如批量大小为8时，吞吐量提升6倍）。

5. 实际应用：从实验室到产业的落地路径

多模态生成的产业价值在于降低内容创作成本——传统的图文/视频创作需要设计师、摄影师、剪辑师协同，而AI可在几秒内生成符合需求的内容。本节以广告营销和教育为例，讲解落地策略。

5.1 广告营销：自动生成多模态广告素材

需求场景

某电商品牌需要为新品（智能手表）生成：

文字文案：突出“长续航”“精准定位”；
图像素材：手表的细节图（如表盘、表带）；
视频素材：用户佩戴手表跑步的场景。

实施策略

数据准备：收集智能手表的文字描述（如产品参数）、图像（如官方图）、视频（如用户测评）作为训练数据；
模型微调：用品牌数据微调预训练的多模态模型（如DALL-E 3、SVD），让生成结果符合品牌风格；
集成部署：将模型封装为API，集成到品牌的内容管理系统（CMS），用户输入文字提示（如“智能手表长续航，用户跑步场景”），即可生成图像和视频；
质量控制：用CLIP分数评估生成内容与提示的一致性（CLIP分数>0.3视为合格），用VMAF分数评估视频的清晰度（VMAF>90视为高保真）。

案例：Canva的多模态生成功能

Canva（全球知名设计平台）集成了DALL-E 3和SVD，用户可通过以下步骤生成广告素材：

输入文字提示：“智能手表，长续航，用户跑步，夕阳背景”；
生成图像：DALL-E 3生成手表的细节图；
扩展视频：SVD将图像扩展为10秒视频（用户跑步的动态场景）；
编辑导出：用户可在Canva中添加文字、滤镜，导出为MP4或PNG。

5.2 教育：多模态课件自动生成

需求场景

某中学老师需要为“光合作用”课程生成：

文字讲义：解释光合作用的原理；
图像素材：叶绿体的结构示意图；
视频素材：光合作用的动态过程（二氧化碳+水→葡萄糖+氧气）。

实施策略

知识图谱构建：将“光合作用”的知识点结构化（如“叶绿体→类囊体→叶绿素→光反应→暗反应”）；
多模态生成：用多模态模型（如Flamingo）根据知识图谱生成文字讲义、图像和视频；
交互设计：将生成的内容整合到课件中，添加交互元素（如点击图像显示详细说明，点击视频播放动态过程）；
个性化调整：老师可修改文字、替换图像/视频，适应不同学生的学习需求。

案例：Khan Academy的AI课件生成

Khan Academy（美国知名教育平台）用多模态生成技术为数学、科学课程生成课件：

文字：生成知识点的通俗解释（如“光合作用就像植物的‘厨房’，用阳光做燃料，制造食物”）；
图像：生成卡通风格的叶绿体示意图；
视频：生成3D动画，展示光合作用的动态过程。
结果显示，使用AI课件的学生成绩比传统课件高15%（Khan Academy, 2023）。

5.3 部署考虑因素：生产环境的坑

GPU资源：多模态生成需要高性能GPU（如A10G、H100），云服务商（如AWS、GCP）的GPU实例价格较高（A10G实例约0.5美元/小时）；
延迟优化：用户希望生成结果在3秒内返回，需要优化模型推理速度（如模型蒸馏、量化）；
版权问题：训练数据中的图像/视频可能涉及版权，需使用授权数据（如Shutterstock的API）或生成原创内容；
伦理审查：生成内容不能包含偏见（如“医生”图像多为男性）或虚假信息（如生成不存在的产品），需建立伦理审查流程。

6. 高级考量：多模态生成的未来挑战与演化

多模态生成的下一个阶段是通用多模态智能体——能处理文字、图像、视频、音频的所有组合，并根据用户意图生成个性化内容。本节探讨这一过程中的关键挑战与演化方向。

6.1 扩展动态：从“文字→视频”到“多模态→多模态”

当前多模态生成主要是“单条件→单输出”（如文字→视频），未来将扩展到“多条件→多输出”（如文字+图像+音频→视频+文字）。例如：

输入：文字“一段关于海洋的音乐”+ 图像“珊瑚礁”+ 音频“海浪声”；
输出：视频“珊瑚礁中的鱼群”+ 文字“海洋的旋律”+ 音频“融合海浪声的钢琴曲”。

实现这一目标需要模态通用的Transformer（如Google的PaLM-E），能处理所有模态的Token序列，并生成任意模态的输出。

6.2 安全影响：深度伪造与内容可信度

多模态生成的一个潜在风险是深度伪造（Deepfake）——生成逼真的虚假视频（如名人的虚假声明、虚假新闻）。解决方法包括：

内容水印：在生成的图像/视频中嵌入不可见的水印（如数字签名），用于识别AI生成内容；
伪造检测：训练检测模型（如用CNN识别视频中的帧间不一致），区分真实内容与AI生成内容；
透明性要求：要求平台标注AI生成内容（如Instagram的“AI生成”标签）。

6.3 伦理维度：偏见与公平性

多模态生成模型的偏见来自训练数据的不平衡。例如：

训练数据中的“医生”图像多为男性，模型生成的“医生”图像男性比例高达70%；
训练数据中的“程序员”图像多为白人，模型生成的“程序员”图像白人比例高达60%。

解决方法包括：

数据平衡：收集多样化的训练数据（如平衡性别、种族的图像）；
偏见缓解：在模型训练中加入对抗损失（Adversarial Loss），让模型生成平衡的内容；
审计机制：定期审计生成内容的偏见情况，调整训练数据或模型参数。

6.4 未来演化向量：通用多模态智能体

多模态生成的终极目标是通用多模态智能体（General Multimodal Agent），具备以下能力：

跨模态理解：能同时理解文字的语义、图像的视觉特征、视频的动态、音频的节奏；
多模态生成：能生成任意模态的内容（文字、图像、视频、音频），且内容逻辑一致；
自适应学习：能从用户反馈中学习，调整生成内容的风格和细节；
场景感知：能根据场景（如教育、广告、娱乐）调整生成策略（如教育场景生成更严谨的内容，广告场景生成更有吸引力的内容）。

7. 综合与拓展：多模态生成的战略价值

多模态生成不仅是技术突破，更是产业升级的引擎——它将重新定义内容创作、教育、广告、医疗等领域的工作流程。本节为技术从业者和企业提供战略建议。

7.1 跨领域应用：多模态生成的“超级场景”

元宇宙：生成虚拟场景的多模态内容（如虚拟城市的文字描述、图像、视频、音频）；
医疗：生成医学影像的多模态报告（如CT图像的文字解释、视频动态分析）；
游戏：生成游戏角色的多模态内容（如角色的文字背景、图像外观、视频动作）；
影视：生成电影的多模态剧本（如文字剧情、图像分镜、视频样片）。

7.2 研究前沿：多模态生成的“未解决问题”

多模态 Few-shot 生成：用少量样本（如10个文字-视频对）训练模型，生成新的视频；
实时多模态生成：在移动端（如手机）实时生成多模态内容（需模型压缩到100M以下）；
多模态可控生成：精确控制生成内容的细节（如“让猫的披风变成蓝色，蝴蝶变成红色”）；
多模态评估指标：除了CLIP分数、VMAF分数，还需要更全面的评估指标（如语义一致性、动态连贯性、创意性）。

7.3 战略建议：企业如何布局多模态生成？

数据积累：收集多模态配对数据（如文字+图像+视频），建立自己的数据集（如电商品牌的产品数据、教育机构的课程数据）；
模型研发：投资大模型训练 infrastructure（如H100 GPU集群），或与云服务商合作（如AWS的Trainium）；
生态整合：将多模态生成能力集成到现有产品中（如Canva的设计平台、Khan Academy的教育平台）；
伦理合规：建立AI伦理委员会，审查生成内容的偏见、虚假问题，确保合规性；
垂直深耕：选择一个垂直领域（如广告、教育）深入研究，形成差异化优势（如专注于医疗多模态生成的创业公司）。

结语：多模态生成——AI走向通用智能的必经之路

多模态生成不是“文字生成+图像生成+视频生成”的简单叠加，而是AI理解世界的方式升级——从“单模态视角”到“多模态协同”，从“工具化”到“智能化”。未来，多模态生成将成为AI的核心能力，驱动产业的数字化转型，也将重新定义人类与AI的交互方式。

作为技术从业者，我们需要既要关注技术的深度（如扩散模型的优化、跨模态对齐的新方法），也要关注技术的广度（如伦理、安全、产业应用）。只有这样，我们才能让多模态生成技术真正造福人类，而不是成为“技术的玩具”。

参考资料

Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision (CLIP).
Ramesh, A., et al. (2022). Hierarchical Text-Conditional Image Generation with CLIP Latents (DALL-E 2).
Rombach, R., et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models (Stable Diffusion).
Saharia, C., et al. (2022). Video Diffusion Models (VDM).
Alayrac, J. B., et al. (2022). Flamingo: A Visual Language Model for Few-Shot Learning (Flamingo).
Stability AI (2023). Stable Video Diffusion (SVD).