AI原生应用中的多模态嵌入模型实现指南

本指南系统解析AI原生应用中多模态嵌入模型的核心技术栈，覆盖从理论框架到工程实现的全生命周期。通过第一性原理推导揭示多模态嵌入的本质——构建跨模态语义同构空间，结合CLIP、FLAVA等里程碑模型的演化路径，阐述层次化架构设计（模态编码器→交互模块→共享空间）、关键实现机制（对比损失优化、模态平衡策略）及工程实践要点（数据对齐、部署优化）。面向开发者提供可落地的技术方案，同时探讨安全伦理与未来演化

Python人工智能大数据

662人浏览 · 2025-09-17 00:16:23

Python人工智能大数据 · 2025-09-17 00:16:23 发布

AI原生应用中的多模态嵌入模型实现指南：从理论到工程的全栈解析

关键词

多模态嵌入模型、跨模态对齐、共享语义空间、对比学习、AI原生应用、多模态融合、表示学习

摘要

1. 概念基础

1.1 领域背景化：AI原生应用的多模态需求

AI原生应用（AI-Native Application）以模型为核心构建系统逻辑，其核心特征是数据驱动决策与多模态感知能力。现实场景中，用户交互数据天然包含文本（搜索词）、图像（用户上传）、语音（语音指令）、视频（行为记录）等多模态信息，传统单模态模型（如仅文本的BERT或仅图像的ResNet）无法捕捉跨模态语义关联（如“红色连衣裙”的文本描述与对应图像的视觉特征）。多模态嵌入模型通过将异质模态数据映射到共享低维语义空间，解决跨模态对齐（Alignment）与统一（Unification）问题，成为AI原生应用的“感知-理解”核心组件。

1.2 历史轨迹：从早期融合到联合嵌入的演进

2010年前：早期融合（Early Fusion）：直接拼接多模态原始特征（如图像像素+文本词向量），未考虑模态异质性，效果受限于低层次特征的语义鸿沟（如像素值与词频统计无直接关联）。
2013-2018：晚期融合（Late Fusion）：通过独立编码器提取模态特征（如CNN提取图像特征、LSTM提取文本特征），再通过全连接层或注意力机制融合。典型模型：Multimodal LSTM（2016），但存在“模态主导”问题（如文本特征维度远高于图像时，融合结果被文本主导）。
2019至今：联合嵌入（Joint Embedding）：提出“共享语义空间”概念，通过对比学习（Contrastive Learning）最大化跨模态正样本相似性、最小化负样本相似性。里程碑模型：CLIP（2021，OpenAI）首次实现开放词汇多模态对齐；FLAVA（2022，Meta）结合自监督与监督学习提升泛化性；BLIP（2023，Salesforce）引入语言模型增强跨模态生成能力。

1.3 问题空间定义

多模态嵌入的核心问题可分解为：

跨模态对齐：如何将不同模态的高维特征映射到同一语义空间，使得语义相似的样本（如“猫”的文本与猫的图像）在空间中距离更近。
模态异质性：图像（连续像素）、文本（离散token）、语音（时序波形）的特征分布差异显著，需设计模态无关的特征归一化机制。
计算效率：多模态数据规模（如亿级图文对）与模型参数量（如CLIP的ViT-L/14有3亿参数）导致训练/推理成本高企。
泛化能力：需处理未见过的模态组合（如“文本+3D点云”）或缺失模态（如仅有文本时生成图像嵌入）。

1.4 术语精确性

多模态嵌入（Multimodal Embedding）：将两种或以上模态数据映射到共享低维向量空间的过程，输出为h ∈ ℝ^d（d为嵌入维度）。
对齐（Alignment）：跨模态正样本对（如同一内容的文本与图像）在嵌入空间中的相似性度量（常用余弦相似度）。
统一（Unification）：同一模态内不同样本（如图像A与图像B）在嵌入空间中保持语义一致性。
对比学习（Contrastive Learning）：通过最大化正样本对相似度、最小化负样本对相似度优化嵌入空间。

2. 理论框架

2.1 第一性原理推导：从表示学习到语义同构

多模态嵌入的本质是构建跨模态语义同构映射，其理论基础可追溯至表示学习（Representation Learning）的核心目标：学习对任务有用的、可迁移的特征表示。根据Bengio的“深度表示学习”理论，理想的表示应满足：

信息保留：保留输入数据的所有相关信息（如图像的视觉细节与文本的语义细节）。
解耦性（Disentanglement）：将数据中的独立变异因素（如“颜色”与“形状”）分解为表示的不同维度。
语义一致性：不同模态中描述同一概念的样本在表示空间中具有高相似性。

对于多模态场景，假设输入为图像x ∈ ℝ^{H×W×C}与文本y ∈ ℝ^{L×D}（H/W/C为图像高/宽/通道数，L/D为文本长度/词向量维度），目标是学习编码器f: x→h_x与g: y→h_y，使得h_x与h_y在共享空间ℝ^d中满足：

\forall (x,y)∈S_{pos}, \text{sim}(h_x, h_y) > \forall (x,y')∈S_{neg}, \text{sim}(h_x, h_y')

其中sim(·)为余弦相似度，S_pos为正样本对（同一内容的多模态数据），S_neg为负样本对（不同内容的多模态数据）。

2.2 数学形式化：损失函数与优化目标

2.2.1 对比损失（Contrastive Loss）

CLIP采用的InfoNCE损失是多模态嵌入的经典优化目标，定义为：

\mathcal{L}_{\text{contrastive}} = -\mathbb{E}_{(x,y)∈S} \log \frac{\exp(\text{sim}(h_x, h_y)/\tau)}{\sum_{(x',y)∈S} \exp(\text{sim}(h_{x'}, h_y)/\tau) + \sum_{(x,y')∈S} \exp(\text{sim}(h_x, h_{y'})/\tau)}

其中τ为温度参数（控制分布尖锐度），分子为正样本对的相似度指数，分母为所有负样本对（包括图像负样本x'和文本负样本y'）的相似度指数和。该损失同时优化图像→文本与文本→图像两个方向的对齐。

2.2.2 对齐与统一损失（ALBEF模型）

为解决对比学习仅关注对齐、忽略同一模态内统一的问题，ALBEF（2022）提出联合优化对齐损失（Alignment Loss）与统一损失（Unification Loss）：

\mathcal{L} = \alpha \mathcal{L}_{\text{align}} + (1-\alpha) \mathcal{L}_{\text{unify}}

L_{align}：基于对比学习的跨模态对齐损失。
L_{unify}：通过掩码语言建模（MLM）或图像区域掩码（MIM）强制模型学习同一模态内的语义一致性。

2.3 理论局限性

模态不平衡（Modality Bias）：当某一模态数据量远大于另一模态时（如图像数据量是文本的10倍），模型可能偏向学习主导模态的特征，导致跨模态对齐失效。
负样本选择（Negative Sampling）：对比学习依赖高质量负样本，但随机负样本（如同一批次内的其他样本）可能包含语义相关样本（如“狗”的图像与“猫”的文本），降低优化效率。
语义鸿沟（Semantic Gap）：低层次特征（如图像的边缘、纹理）与高层次语义（如“温馨的家庭场景”）之间的映射难以完全建模，导致复杂语义对齐失败。

2.4 竞争范式分析

范式	代表模型	核心思想	优势	劣势
早期融合	早期CNN+LSTM	原始数据拼接后输入共享编码器	计算高效	忽略模态异质性，效果差
晚期融合	Multimodal LSTM	独立编码后通过注意力/全连接融合	保留模态特性	融合层易成信息瓶颈
联合嵌入	CLIP、FLAVA	独立编码后映射到共享空间，对比优化	跨模态对齐能力强	依赖大规模对齐数据
生成式融合	BLIP、ALBEF	结合生成任务（如文本生成/图像生成）	增强语义理解深度	训练复杂度高

3. 架构设计

3.1 系统分解：三阶段架构模型

多模态嵌入模型可分解为模态编码器→跨模态交互模块→共享嵌入空间三阶段架构（图1）：

graph TD
    A[图像输入] --> B[视觉编码器]
    C[文本输入] --> D[文本编码器]
    B --> E[跨模态交互模块]
    D --> E
    E --> F[共享嵌入空间]
    F --> G[下游任务：检索/生成/分类]

图1：多模态嵌入模型架构概览

3.1.1 模态编码器

视觉编码器：主流选择包括：
- CNN+MLP（如CLIP的ResNet-50）：通过ResNet提取图像特征图（ℝ^{H×W×C}），经全局池化得到ℝ^C向量，再通过MLP映射到嵌入维度d。
- Vision Transformer（ViT）（如CLIP的ViT-L/14）：将图像分割为14×14的patch（共(224/14)²=256个patch），添加位置编码后输入Transformer，取[CLS] token作为图像嵌入。
文本编码器：
- Transformer（如CLIP的Text Transformer）：对文本token（经BPE分词）添加位置编码后输入Transformer，取[CLS] token或平均池化结果作为文本嵌入。
- RNN变体（如LSTM）：适用于时序敏感任务（如语音+文本），但长距离依赖建模能力弱于Transformer。

3.1.2 跨模态交互模块

交互模块决定不同模态特征的融合方式，关键设计包括：

交叉注意力（Cross-Attention）（如FLAVA）：图像特征作为key/value，文本特征作为query，计算文本对图像区域的注意力权重，反之亦然。数学形式：
```
h_{\text{text}}' = \text{Attention}(h_{\text{text}}, h_{\text{image}}, h_{\text{image}})
```
双线性池化（Bilinear Pooling）（如MUTAN）：通过外积融合图像与文本特征，捕捉高阶交互：
```
h_{\text{fusion}} = \text{MLP}(h_{\text{image}} \otimes h_{\text{text}})
```
参数共享（Parameter Sharing）（如ALBEF）：共享编码器部分参数（如图像与文本Transformer的前几层），强制模型学习模态无关的基础特征。

3.1.3 共享嵌入空间

嵌入空间需满足：

维度对齐：图像与文本嵌入维度相同（通常d=512~768）。
归一化：对嵌入向量进行L2归一化，确保余弦相似度等价于点积（简化计算）。
可迁移性：嵌入向量需支持下游任务（如跨模态检索、多模态分类），通常通过线性探针（Linear Probe）评估迁移能力。

3.2 组件交互模型：以CLIP为例的详细拆解

CLIP（Contrastive Language-Image Pretraining）是联合嵌入范式的标杆模型，其架构交互流程如下：

输入处理：图像缩放至224×224，文本通过BPE分词为最多77个token（不足补[PAD]，超出截断）。
独立编码：
- 图像：ViT将每个14×14 patch映射为768维向量（共256个patch），添加位置编码后输入12层Transformer，取[CLS] token作为图像嵌入h_i ∈ ℝ^{512}（经MLP降维）。
- 文本：Text Transformer处理77个token（包含[CLS]与[SEP]），取[CLS] token作为文本嵌入h_t ∈ ℝ^{512}（经MLP降维）。
对比学习：对于一个包含N个样本的批次，构建N×N相似度矩阵S = h_i · h_t^T（因L2归一化，点积即余弦相似度）。
损失计算：对每一行（图像视角），计算以该行文本为正样本的交叉熵损失；对每一列（文本视角），计算以该列图像为正样本的交叉熵损失，总损失为两者均值。

3.3 设计模式应用

适配器（Adapter）模式：在模态编码器后添加轻量级适配器（如2层MLP），允许模型在不修改原编码器的情况下适配新模态（如新增语音模态）。
动态路由（Dynamic Routing）：根据输入模态的特征复杂度（如图像的纹理丰富度、文本的长度）动态调整交互模块的注意力权重，避免冗余计算。
知识蒸馏（Knowledge Distillation）：用大模型（如CLIP ViT-L/14）的嵌入作为教师，训练小模型（如ViT-B/32），降低推理成本（适用于边缘设备）。

4. 实现机制

4.1 算法复杂度分析

以ViT-B/32（图像编码器）+ BERT-Base（文本编码器）组合为例，单次前向传播的时间复杂度为：

图像编码：O((H/p)² · d · L)，其中H=224, p=32（patch大小），d=768（嵌入维度），L=12（Transformer层数），计算量约(7²)·768·12 ≈ 458k次操作。
文本编码：O(L_text² · d · L)，其中L_text=77（文本长度），计算量约77²·768·12 ≈ 54.5M次操作。
对比损失：O(N²)（N为批次大小），当N=256时，计算量为256²=65k次操作。

关键优化点：文本编码的复杂度随L_text²增长，需限制输入文本长度（如截断至77 token）；批次大小N受限于GPU内存（如A100 GPU可支持N=2048时，N²=4M相似度计算）。

4.2 优化代码实现（PyTorch示例）

以下为多模态嵌入模型的核心实现代码（含注释）：

import torch
import torch.nn as nn
from transformers import ViTModel, BertModel

class MultiModalEmbedder(nn.Module):
    def __init__(self, img_encoder="google/vit-base-patch32-224-in21k", 
                 text_encoder="bert-base-uncased", embed_dim=512):
        super().__init__()
        # 初始化模态编码器
        self.img_encoder = ViTModel.from_pretrained(img_encoder)
        self.text_encoder = BertModel.from_pretrained(text_encoder)
        # 投影层：将编码器输出映射到共享嵌入维度
        self.img_proj = nn.Linear(self.img_encoder.config.hidden_size, embed_dim)
        self.text_proj = nn.Linear(self.text_encoder.config.hidden_size, embed_dim)
        # 温度参数（可学习）
        self.tau = nn.Parameter(torch.tensor(1.0))

    def encode_image(self, pixel_values):
        # 图像编码：输入为(bs, 3, 224, 224)的像素值
        img_output = self.img_encoder(pixel_values=pixel_values)
        img_embeds = img_output.last_hidden_state[:, 0, :]  # 取[CLS] token
        img_embeds = self.img_proj(img_embeds)
        return nn.functional.normalize(img_embeds, dim=-1)  # L2归一化

    def encode_text(self, input_ids, attention_mask):
        # 文本编码：输入为(bs, 77)的token ID与注意力掩码
        text_output = self.text_encoder(input_ids=input_ids, attention_mask=attention_mask)
        text_embeds = text_output.last_hidden_state[:, 0, :]  # 取[CLS] token
        text_embeds = self.text_proj(text_embeds)
        return nn.functional.normalize(text_embeds, dim=-1)  # L2归一化

    def forward(self, pixel_values, input_ids, attention_mask):
        # 编码图像与文本
        img_embeds = self.encode_image(pixel_values)
        text_embeds = self.encode_text(input_ids, attention_mask)
        # 计算相似度矩阵（bs x bs）
        logits = (img_embeds @ text_embeds.T) / self.tau.exp()
        # 构建标签（对角线为正样本）
        labels = torch.arange(logits.size(0), device=logits.device)
        # 计算图像→文本与文本→图像损失
        loss_img = nn.functional.cross_entropy(logits, labels)
        loss_text = nn.functional.cross_entropy(logits.T, labels)
        return (loss_img + loss_text) / 2

# 使用示例
model = MultiModalEmbedder()
img_input = torch.randn(32, 3, 224, 224)  # 32张图像
text_input_ids = torch.randint(0, 30522, (32, 77))  # 32段文本（BERT词表大小30522）
attention_mask = torch.ones(32, 77)  # 无填充
loss = model(img_input, text_input_ids, attention_mask)
loss.backward()

4.3 边缘情况处理

缺失模态：当仅输入单模态数据时（如仅有图像），需支持单模态嵌入推理。可通过在训练阶段加入单模态自监督任务（如图像/文本的掩码重建），确保编码器能独立学习有效表示。
噪声数据：图像模糊、文本拼写错误等噪声会降低嵌入质量。解决方案包括：
- 数据增强：图像添加随机裁剪、颜色抖动；文本添加同义词替换、随机删除token。
- 鲁棒性训练：在损失函数中加入噪声样本的对比约束（如将原样本与噪声样本视为正样本，与其他样本视为负样本）。
模态长度不一致：长文本（如1000 token）或高分辨率图像（如1024×1024）会超出编码器处理能力。需：
- 文本截断/分块：对长文本分块编码后取平均或通过Transformer的全局注意力处理。
- 图像下采样：将高分辨率图像缩放至模型输入尺寸（如224×224），保留关键区域（通过目标检测框裁剪）。

4.4 性能考量

训练效率：
- 使用混合精度训练（FP16/BF16），减少显存占用并加速计算（PyTorch的torch.cuda.amp）。
- 分布式训练（如DeepSpeed或FSDP），支持跨多GPU/多节点训练大规模数据集（如LAION-5B的5000万图文对）。
推理速度：
- 模型压缩：通过剪枝（移除低重要性参数）、量化（FP32→INT8）降低计算量（如使用Hugging Face Optimum的量化工具）。
- 异步推理：对请求批量处理（Batching），减少GPU启动开销（如TorchServe的动态批处理）。
内存优化：
- 使用梯度检查点（Gradient Checkpointing），以计算时间换显存（减少约50%显存占用）。
- 卸载参数到CPU（如DeepSpeed的ZeRO内存优化），支持训练超大规模模型。

5. 实际应用

5.1 实施策略：从数据到训练的全流程

5.1.1 数据准备

数据收集：优先选择领域相关的多模态对齐数据（如电商场景的“商品标题+商品图”、医疗场景的“病历文本+医学影像”）。公开数据集包括LAION-5B（通用图文）、Conceptual Captions（330万图文）、COCO（12万图文，含人工标注）。
数据清洗：
- 过滤低质量样本：图像分辨率低于100×100、文本长度小于3 token、图文语义无关（如随机文本+随机图像）。
- 去重：通过哈希（如图像的感知哈希、文本的SimHash）去除重复样本。
- 平衡模态分布：确保各模态数据量差异不超过10倍（如文本数据量过大时，按主题抽样）。

5.1.2 训练策略

预训练：使用大规模通用数据（如LAION-5B）预训练基础模型，学习跨模态基础语义对齐。
微调（Finetuning）：使用领域数据（如电商图文）微调模型，适应特定场景的语义需求（如“连衣裙”的视觉特征与“显瘦”“高腰”等文本关键词的对齐）。
多任务学习：联合训练跨模态检索、图像描述生成（Image Captioning）、文本到图像生成（Text-to-Image）等任务，增强模型的语义理解深度（如BLIP模型通过生成任务提升对齐效果）。

5.2 集成方法论

多模态嵌入模型需与AI原生应用的其他组件（如推荐引擎、对话系统）集成，关键接口设计如下：

输入接口：支持多模态数据的灵活输入（如HTTP接口接收image_file与text_query参数）。
嵌入输出：返回各模态的嵌入向量（如{"image_embedding": [...], "text_embedding": [...]}），供下游任务（如向量数据库检索、相似度计算）使用。
服务协议：采用gRPC或HTTP/REST，支持高并发请求（如电商大促期间的百万级图文检索请求）。

5.3 部署考虑因素

硬件选择：
- 训练：优先使用GPU（如NVIDIA A100，支持FP16/BF16加速）或TPU（如Google TPU v4，适合大规模对比学习）。
- 推理：边缘设备（如手机）使用轻量级模型（如MobileViT+DistilBERT）；云服务使用GPU集群（如AWS P4d实例）。
框架选择：
- 训练框架：PyTorch（灵活）或TensorFlow（分布式支持好）。
- 推理框架：TorchServe（PyTorch模型）、TensorRT（高性能推理）、ONNX Runtime（跨平台）。
监控与日志：
- 性能监控：记录推理延迟、QPS（Queries Per Second）、GPU利用率。
- 质量监控：定期用验证集评估嵌入质量（如跨模态检索的Recall@10），检测概念漂移（如用户搜索词从“连衣裙”转向“汉服”导致的语义分布变化）。

5.4 运营管理

持续学习：通过用户反馈（如检索点击数据）更新模型，使用在线学习（Online Learning）或小批量增量训练（Mini-batch Incremental Training）。
模型版本管理：使用MLflow或Weights & Biases跟踪模型版本，支持快速回滚（如新版本因数据偏差导致检索准确率下降时）。
成本优化：根据流量波动动态扩缩容（如电商大促前增加GPU实例，平时使用CPU实例）。

6. 高级考量

6.1 扩展动态：多模态的维度拓展

模态类型扩展：从“文本+图像”向“文本+图像+语音+视频+3D点云”演进。例如，视频模态需处理时序信息（如通过3D CNN或Video Transformer），3D点云需使用PointNet提取几何特征。
模态数量扩展：支持任意数量模态的联合嵌入（如“文本+图像+语音”三元组），需设计可扩展的交互模块（如分层注意力：先对齐文本与图像，再对齐结果与语音）。

6.2 安全影响

对抗攻击：攻击者可通过微小修改（如图像添加对抗噪声、文本插入误导词）使模型生成错误嵌入，导致检索/分类错误。防御方法包括：
- 对抗训练（Adversarial Training）：在训练数据中加入对抗样本。
- 鲁棒性评估：使用标准化对抗攻击工具（如TextAttack、Adversarial Robustness Toolbox）测试模型。
隐私泄露：多模态嵌入可能隐含用户隐私信息（如医疗图像中的患者ID、文本中的地址）。需：
- 数据脱敏：训练前移除敏感信息（如OCR识别并模糊图像中的身份证号）。
- 联邦学习（Federated Learning）：在用户设备上训练模型，仅上传梯度而非原始数据。

6.3 伦理维度

偏见与公平性：训练数据可能包含偏见（如女性图像更多关联“家庭”场景），导致嵌入空间存在偏见。解决方案：
- 数据去偏：通过统计方法（如重新加权样本）或生成模型（如GAN生成平衡数据）减少偏见。
- 公平性评估：使用公平性指标（如不同性别/种族的检索准确率差异）监控模型。
可解释性：多模态嵌入的“黑箱”特性可能导致决策不可追溯（如推荐系统因嵌入相似性推荐商品，但无法解释具体原因）。增强可解释性的方法：
- 注意力可视化：展示文本token与图像区域的注意力权重（如用热力图显示“红色”词对应图像的红色区域）。
- 反事实解释（Counterfactual Explanation）：生成“如果图像颜色变为蓝色，嵌入将更接近‘蓝色连衣裙’”的解释。

6.4 未来演化向量

多模态大模型（MMLLM）：结合大语言模型（如GPT-4）的上下文理解能力与多模态嵌入的感知能力，实现“任意模态输入→自然语言输出”的通用智能（如输入图像+语音→生成详细描述）。
自监督多模态学习：减少对人工标注对齐数据的依赖，通过自监督信号（如图像的掩码重建、文本的完形填空）学习跨模态对齐（如FLAVA的改进方向）。
神经符号多模态嵌入：将符号知识（如Ontology本体、规则库）融入嵌入空间，增强逻辑推理能力（如“猫”的嵌入关联“哺乳动物”“宠物”等符号概念）。

7. 综合与拓展

7.1 跨领域应用

电商推荐：通过用户搜索文本+浏览图像的嵌入相似性，推荐语义相关商品（如搜索“夏季连衣裙”且浏览过“碎花裙”图像，推荐“夏季碎花连衣裙”）。
自动驾驶：融合车载摄像头图像、激光雷达点云、导航文本（如“前方学校”）的嵌入，提升场景理解能力（如检测到“儿童”图像+“学校”文本时自动减速）。
医疗诊断：对齐病历文本（如“咳嗽、发热”）与医学影像（如X光片）的嵌入，辅助医生识别肺炎等疾病（如嵌入相似性高的样本对应同一病症）。

7.2 研究前沿

开放词汇多模态嵌入：支持识别训练时未见过的概念（如“量子计算机”的文本与图像），需结合大语言模型的开放词汇能力（如CLIP的Zero-Shot能力）。
少样本/零样本学习：仅用少量样本（如10对图文）或无样本，通过迁移学习实现跨模态对齐（如BLIP-2通过冻结大模型参数，仅训练轻量级适配器）。
多模态嵌入评估：现有指标（如Recall@K）无法全面反映语义对齐质量，需设计更细粒度的评估方法（如基于人类标注的语义相似度评分）。

7.3 开放问题

跨模态语义鸿沟：如何让模型理解“温馨”“孤独”等抽象概念的跨模态表示？需结合情感分析、常识推理等技术。
计算资源限制：训练千亿参数多模态模型需数百张GPU，如何降低训练成本？需探索更高效的训练算法（如稀疏注意力、梯度累积）。
动态多模态交互：现实场景中模态输入是动态的（如对话中交替出现文本与图像），如何设计时序感知的多模态嵌入模型？

7.4 战略建议

数据优先：构建领域特定的高质量多模态对齐数据（如通过众包标注或爬取权威网站数据），是提升模型效果的关键。
开源生态：优先基于开源模型（如CLIP、FLAVA）进行二次开发，减少重复造轮子（如Hugging Face的transformers库已支持多模态模型的快速加载）。
可解释性投入：在AI原生应用中嵌入可解释模块（如注意力可视化工具），提升用户信任度（尤其医疗、金融等敏感领域）。

参考资料

Radford, A., et al. (2021). “Learning Transferable Visual Models From Natural Language Supervision” (CLIP论文).
Li, J., et al. (2022). “FLAVA: A Foundational Language-Visual Alignment Model” (FLAVA论文).
Li, H., et al. (2023). “BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation” (BLIP论文).
Hugging Face文档：多模态模型库
OpenAI CLIP官方仓库：github.com/openai/CLIP