别再踩坑！多模态AI系统的提示工程挑战，提示工程架构师的避坑指南

多模态提示是包含两种或以上模态信息的输入序列，用于引导多模态模型完成任务。组件作用示例模态标识（Modality Tag）告诉模型“这部分输入属于什么类型”<image1><audio2><text>模态内容（Modality Content）具体的模态数据（文本字符串、图像Base64、音频二进制）“猫玩毛线球”、base64,...任务指令（Task Instruction）明确用户需求，且必

搜索引擎技术

513人浏览 · 2025-08-25 04:00:40

搜索引擎技术 · 2025-08-25 04:00:40 发布

别再踩坑！多模态AI系统的提示工程挑战，提示工程架构师的避坑指南

一、前言：从单模态到多模态——提示工程的“维度爆炸”

2023年以来，多模态AI（Multimodal AI）正式从实验室走进产业：GPT-4V能看懂图片并生成文案，Claude 3能解析视频片段，Gemini Pro Vision能联动图文回答复杂问题……这些能力的背后，多模态提示工程（Multimodal Prompt Engineering）成为了连接用户需求与模型能力的关键桥梁。

但相较于单模态（纯文本）提示，多模态提示的复杂度呈指数级上升——你需要同时处理文本、图像、音频、视频等多种模态的信息，还要解决它们之间的关联、对齐、冲突问题。很多工程师从单模态转型时，常陷入“看似写了提示，模型却完全没理解”的困境：

给模型发一张“猫玩毛线球”的图，加文本“它在做什么？”，模型却回答“图中有一只猫”；
输入一段“海浪拍岸”的音频+文本“描述场景”，模型却写成了“森林里的鸟鸣”；
用“美食图片+减肥食谱要求”生成文案，模型却重点推荐了高热量做法……

这些问题的本质，是多模态提示工程的核心矛盾：用户的“跨模态需求”与模型的“模态处理逻辑”不匹配。本文将从5大高频坑点入手，结合数学原理、代码案例和实战经验，给出提示工程架构师的“避坑地图”。

二、先搞懂基础：多模态提示的核心逻辑

在讲坑之前，必须先明确两个关键概念——什么是多模态提示？ 它和单模态提示的区别是什么？

2.1 多模态提示的定义与结构

多模态提示是包含两种或以上模态信息的输入序列，用于引导多模态模型完成任务。其核心结构可拆解为三部分：

组件	作用	示例
模态标识（Modality Tag）	告诉模型“这部分输入属于什么类型”	`<image1>`、`<audio2>`、`<text>`
模态内容（Modality Content）	具体的模态数据（文本字符串、图像Base64、音频二进制）	“猫玩毛线球”、`data:image/png;base64,...`
任务指令（Task Instruction）	明确用户需求，且必须关联不同模态	“结合描述中的‘它’在做什么”

反例（错误的多模态提示）：
[图像：猫玩毛线球] + “它在做什么？”
→ 模型无法理解“它”指代图像中的猫，因为没有模态关联指令。

正例（正确的多模态提示）：
“<image1>是一只猫的图片，请描述<image1>中的它在做什么？” + [图像：猫玩毛线球]
→ 通过<image1>标识和“中的它”的关联指令，模型能准确绑定模态信息。

2.2 多模态模型的提示处理流程

多模态模型（如GPT-4V、Gemini）处理提示的流程可概括为“三分一融”：

模态拆分：将输入的多模态提示拆解为文本、图像、音频等独立模态；
模态编码：用专属编码器（如文本用BERT、图像用ViT、音频用Wav2Vec）将各模态转为向量；
模态标记：给每个模态向量添加“模态类型嵌入”（Modality Type Embedding），比如文本=0、图像=1、音频=2；
多模态融合：用注意力机制（Attention）将所有模态向量融合，学习它们之间的关联。

其中，模态标记和多模态融合是多模态提示工程的关键——如果提示中没有明确的模态关联，模型的注意力机制就无法“聚焦”到正确的模态组合上。

2.3 数学视角：多模态融合的注意力公式

多模态融合的核心是跨模态注意力计算，我们用Transformer的自注意力机制为例，数学公式如下：

假设多模态提示的输入序列为 ( T = [t_1, t_2, …, t_n] )，其中 ( t_i ) 可以是文本token、图像patch token或音频frame token。每个token的表示为：
$h_i = \text{Emb}(t_i) + \text{Pos}(i) + \text{Mod}(m_i)$

( \text{Emb}(t_i) )：token的语义嵌入（如文本的Word2Vec、图像的ViT Patch Embedding）；
( \text{Pos}(i) )：位置嵌入（表示token在序列中的位置）；
( \text{Mod}(m_i) )：模态类型嵌入（表示token属于哪种模态，如文本=0、图像=1）。

接下来，自注意力层计算每个token与其他token的关联权重：
$\text{Attention}(Q, K, V) = \text{softmax}\left( \frac{QK^T}{\sqrt{d_k}} \right) V$
其中，( Q = W_q h )（查询矩阵）、( K = W_k h )（键矩阵）、( V = W_v h )（值矩阵），( d_k ) 是键向量的维度。

关键结论：
多模态提示的效果，取决于( \text{Mod}(m_i) )（模态类型）和任务指令对( Q/K/V )的引导——如果提示中没有明确的模态关联，模型的注意力权重会“随机分配”，导致模态信息割裂。

三、多模态提示工程的5大高频坑点与避坑方案

接下来，我们将针对模态割裂、跨模态偏差、优先级混乱、上下文遗忘、语义鸿沟这5个工程师最常踩的坑，逐一分析原因并给出可落地的解决方案。

坑点1：模态信息的碎片化割裂——“模型没听懂‘它’指什么”

问题场景

你输入一张“小孩吃冰淇淋”的图，加文本“它的味道怎么样？”，模型却回答“图中有一个小孩在吃冰淇淋”——完全没回应“味道”的问题。

原因分析

模态指代不明确：文本中的“它”没有明确绑定图像中的“冰淇淋”；
模型的“模态孤岛”效应：多模态模型的各模态编码器是独立训练的，若提示中没有关联指令，模型会将图像和文本视为两个独立的“孤岛”，无法联动。

避坑方案：结构化提示+模态显式关联

核心思路：用模态标识（如<image1>）和关联指令（如“中的XX”），强制模型将文本中的代词/名词与图像中的元素绑定。

实战代码示例（调用GPT-4V）：

import openai
import base64
from PIL import Image
import io

# 1. 环境配置
openai.api_key = "your-api-key"

# 2. 图像转Base64（GPT-4V要求图像用Base64编码）
def image_to_base64(image_path):
    with Image.open(image_path) as img:
        buffered = io.BytesIO()
        img.save(buffered, format="PNG")
        return base64.b64encode(buffered.getvalue()).decode()

# 3. 构建结构化多模态提示
image_base64 = image_to_base64("kid_icecream.png")
multimodal_prompt = [
    {
        "type": "text",
        "text": "<image1>是一张小孩吃冰淇淋的图片，请回答：<image1>中的冰淇淋味道怎么样？"
    },
    {
        "type": "image_url",
        "image_url": {
            "url": f"data:image/png;base64,{image_base64}"
        }
    }
]

# 4. 调用GPT-4V
response = openai.ChatCompletion.create(
    model="gpt-4-vision-preview",
    messages=[{"role": "user", "content": multimodal_prompt}],
    max_tokens=100
)

# 5. 输出结果
print("模型回答：", response.choices[0].message.content)

结果对比：

原提示（无结构化）：“图中有一个小孩在吃冰淇淋”；
结构化提示：“从小孩满足的表情和舔冰淇淋的动作来看，这个冰淇淋应该是甜的，可能带有巧克力或草莓的香味。”

进阶技巧：链式提示（Chain-of-Thought for Multimodal）

对于复杂任务（如“根据图片中的食材推荐菜谱”），可以用链式提示分两步引导模型：

第一步：提取图像中的关键元素（如“中的食材有番茄、鸡蛋、面条”）；
第二步：结合提取的元素完成任务（如“用这些食材做一道番茄鸡蛋面，步骤是什么？”）。

示例提示：

<image1>是一张厨房食材的图片，请先列出<image1>中的食材，再用这些食材推荐一道家常菜，写出详细步骤。

坑点2：跨模态对齐的隐性偏差——“模型把医生当成了工程师”

问题场景

你输入一张“女性医生穿白大褂”的图，加文本“描述这位工程师的工作场景”，模型却回答“这位女工程师正在医院办公室里整理文件”——明显混淆了“医生”和“工程师”的职业。

原因分析

训练数据的模态关联偏差：多模态模型的训练数据中，“医生”常与“白大褂、医院”关联，“工程师”常与“电脑、实验室”关联；
提示中的模态属性冲突：文本中的“工程师”与图像中的“白大褂、医院”属性冲突，模型因偏差选择了“符合图像属性的职业”（医生），但错误地沿用了文本中的“工程师”称呼。

避坑方案：反偏差引导+Few-Shot示例

核心思路：

用反偏差指令明确提醒模型“不要被模态属性误导”；
用Few-Shot示例（少量正确案例）校准模型的跨模态对齐逻辑。

实战代码示例（调用Claude 3）：

from anthropic import Anthropic

# 1. 环境配置
anthropic = Anthropic(api_key="your-api-key")

# 2. 构建带反偏差和Few-Shot的提示
multimodal_prompt = f"""
请根据图片和文本回答问题，注意：不要被图像中的常见属性误导，必须严格按照文本中的职业描述。

示例1：
图片：穿警服的男性
文本：描述这位教师的工作场景
回答：这位男教师穿着警服（可能是角色扮演），正在教室里给学生讲安全知识。

示例2：
图片：戴厨师帽的女性
文本：描述这位程序员的工作场景
回答：这位女程序员戴着厨师帽（可能是餐厅兼职），正在电脑前写代码。

现在处理当前任务：
图片：<image>（女性医生穿白大褂）
文本：描述这位工程师的工作场景
"""

# 3. 调用Claude 3（支持图像URL输入）
response = anthropic.messages.create(
    model="claude-3-opus-20240229",
    max_tokens=200,
    messages=[{"role": "user", "content": [
        {"type": "text", "text": multimodal_prompt},
        {"type": "image", "source": {"type": "url", "url": "https://example.com/doctor.jpg"}}
    ]}]
)

# 4. 输出结果
print("模型回答：", response.content[0].text)

结果对比：

原提示（无反偏差）：“这位女工程师正在医院办公室里整理文件”；
带反偏差提示：“这位女工程师穿着白大褂（可能是在医院做技术支持），正在电脑前调试医疗设备的软件系统。”

数学视角：偏差的本质是“模态联合概率分布偏移”

多模态模型的跨模态对齐依赖模态联合概率分布 ( P(Y | X_1, X_2) )，其中 ( X_1 ) 是图像特征，( X_2 ) 是文本特征，( Y ) 是输出。当训练数据中 ( P(Y=医生 | X_1=白大褂) ) 远大于 ( P(Y=工程师 | X_1=白大褂) ) 时，模型会优先选择“医生”作为输出——即使文本要求是“工程师”。

反偏差引导的本质，是调整先验概率 ( P(Y) )：通过提示告诉模型“文本中的职业是强约束，即使图像属性冲突也要遵守”，即 ( P(Y=工程师) ) 的权重被人工提升。

坑点3：复杂任务的模态优先级混乱——“模型忽略了图像的关键细节”

问题场景

你输入一张“夕阳下的海边”图，加文本“生成一首诗，重点突出夕阳的橙红色”，模型却生成了“海浪拍岸，海风轻拂，远处的船帆若隐若现”——完全没提到“橙红色夕阳”。

原因分析

模态优先级未明确：多模态模型默认“文本指令的优先级高于图像细节”，但用户需要的是“图像细节（夕阳颜色）优先”；
提示中的“重点”未绑定模态：文本中的“重点突出夕阳的橙红色”没有明确关联图像中的“夕阳”，模型以为是“文本中的抽象要求”。

避坑方案：权重标记+分步提示

核心思路：

用权重标记（如weight=0.8）明确图像细节的优先级；
用分步提示先让模型提取图像中的关键细节，再结合细节完成任务。

实战代码示例（调用Gemini Pro Vision）：

import google.generativeai as genai

# 1. 环境配置
genai.configure(api_key="your-api-key")
model = genai.GenerativeModel("gemini-pro-vision")

# 2. 构建带权重标记的分步提示
prompt = [
    "第一步：观察<image1>中的夕阳颜色，用具体的颜色词描述（如橙红色、玫红色）；",
    "第二步：根据第一步的颜色，生成一首诗，重点突出这个颜色。",
    {"image": Image.open("sunset_beach.jpg")}  # Gemini支持直接传入PIL图像
]

# 3. 调用Gemini
response = model.generate_content(prompt)

# 4. 输出结果
print("模型回答：", response.text)

结果对比：

原提示（无权重）：“海浪拍岸，海风轻拂，远处的船帆若隐若现”；
分步提示：“第一步：夕阳的颜色是橙红色，像融化的焦糖；第二步：橙红染透海平线，浪花捧着碎金片，风里飘着咸咸的甜，船帆载着橘色的念。”

进阶技巧：视觉提示（Visual Prompting）

对于图像细节要求极高的任务（如“识别图中猫的瞳孔颜色”），可以用视觉提示（在图像上添加标注）辅助：

在图像中的“猫瞳孔”位置画圈，标注“：猫的瞳孔”；
提示中写“请描述的颜色”。

这种方法能直接引导模型的注意力到图像的关键区域，比纯文本提示更有效。

坑点4：长序列多模态的上下文遗忘——“模型忘了3分钟前的视频片段”

问题场景

你输入一段10分钟的“婚礼视频”（拆成100帧图片），加文本“总结视频的情节，重点讲第3分钟的交换戒指场景”，模型却回答“视频展示了婚礼的全过程，有新人入场、敬酒等环节”——完全没提到“交换戒指”。

原因分析

上下文窗口限制：多模态模型的上下文窗口（如GPT-4V的图像输入限制为4张）无法容纳长序列模态；
时序关联缺失：视频拆成帧后，模型无法理解“第3分钟”对应的帧位置，导致关键片段被遗忘。

避坑方案：模态分段编码+检索增强提示（RAG）

核心思路：

模态分段：将长序列模态（如视频）拆成小段，每段加时间戳标记（如<video 0:00-1:00>）；
检索增强：用向量数据库（如Pinecone）存储各段的特征，提示时检索“第3分钟”对应的段，再输入模型。

实战流程（以视频总结为例）：

步骤1：视频分段与特征提取

用OpenCV将10分钟视频拆成10段（每段1分钟），用ViT模型提取每段的图像特征：

import cv2
import torch
from transformers import ViTImageProcessor, ViTModel

# 1. 加载ViT模型
processor = ViTImageProcessor.from_pretrained("google/vit-base-patch16-224")
model_vit = ViTModel.from_pretrained("google/vit-base-patch16-224")

# 2. 视频分段（每1分钟1段）
def split_video(video_path, segment_duration=60):
    cap = cv2.VideoCapture(video_path)
    fps = cap.get(cv2.CAP_PROP_FPS)
    total_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
    segments = []
    for i in range(0, total_frames, int(fps*segment_duration)):
        cap.set(cv2.CAP_PROP_POS_FRAMES, i)
        ret, frame = cap.read()
        if ret:
            segments.append(("segment_{}".format(i//int(fps*segment_duration)), frame))
    cap.release()
    return segments

# 3. 提取每段的特征
video_segments = split_video("wedding_video.mp4")
segment_features = {}
for seg_id, frame in video_segments:
    inputs = processor(images=frame, return_tensors="pt")
    with torch.no_grad():
        outputs = model_vit(**inputs)
    segment_features[seg_id] = outputs.last_hidden_state.mean(dim=1).numpy()  # 取平均作为段特征

步骤2：存储特征到向量数据库（Pinecone）

import pinecone

# 1. 初始化Pinecone
pinecone.init(api_key="your-api-key", environment="us-west1-gcp")
index = pinecone.Index("video-segments")

# 2. 上传特征（seg_id作为ID，特征作为向量）
vectors = [{"id": seg_id, "values": feat.tolist()} for seg_id, feat in segment_features.items()]
index.upsert(vectors=vectors)

步骤3：检索关键段并构建提示

# 1. 检索“第3分钟”对应的段（即segment_2，因为从0开始计数）
query_feat = segment_features["segment_2"]  # 第3分钟对应的段是segment_2（0:00-1:00是segment_0，依此类推）
results = index.query(vector=query_feat.tolist(), top_k=1)
relevant_seg_id = results["matches"][0]["id"]
relevant_frame = next(frame for seg_id, frame in video_segments if seg_id == relevant_seg_id)

# 2. 构建带时间戳的提示
prompt = [
    f"<video {relevant_seg_id.replace('_', ':')}>是婚礼视频的第3分钟片段（交换戒指场景），",
    "请结合这段视频和整体视频内容，总结情节，重点讲交换戒指的场景。",
    {"image": relevant_frame}  # 传入关键段的帧
]

# 3. 调用Gemini生成总结
response = model.generate_content(prompt)
print("视频总结：", response.text)

结果对比：

原提示（无分段）：“视频展示了婚礼的全过程，有新人入场、敬酒等环节”；
检索增强提示：“婚礼视频的第3分钟，新人在神父的见证下交换戒指——新郎取出钻戒，轻轻戴在新娘的无名指上，新娘眼含泪水，全场响起掌声。整个视频记录了从入场到敬酒的温馨瞬间，其中交换戒指的场景最令人感动。”

坑点5：模态间的语义鸿沟误解——“模型把‘微笑’解释成了‘悲伤’”

问题场景

你输入一张“蒙娜丽莎微笑”的图，加文本“解释她的悲伤情绪”，模型却回答“蒙娜丽莎的微笑中透露出淡淡的悲伤，可能是因为她想起了去世的亲人”——完全忽略了图像中的“微笑”与文本中的“悲伤”冲突。

原因分析

语义鸿沟（Semantic Gap）：图像的“视觉语义”（微笑）与文本的“语言语义”（悲伤）在模型的语义空间中距离极远；
模型的“妥协”机制：当模态间语义冲突时，模型会倾向于“调和”冲突（如“微笑中透露出悲伤”），而不是指出冲突。

避坑方案：对比提示+元提示（Meta-Prompt）

核心思路：

用对比提示让模型先识别模态间的语义冲突；
用元提示让模型先评估“任务的可行性”，再决定是否回答。

实战代码示例（调用GPT-4V）：

# 1. 构建对比提示
multimodal_prompt = [
    {
        "type": "text",
        "text": """请按照以下步骤回答：
        1. 分析<image1>中的表情（用“微笑”“悲伤”等词描述）；
        2. 对比文本中的“悲伤情绪”与图像表情是否一致；
        3. 如果不一致，请指出冲突并拒绝回答；如果一致，请解释。
        """
    },
    {
        "type": "image_url",
        "image_url": {"url": "https://example.com/mona_lisa.jpg"}
    },
    {
        "type": "text",
        "text": "解释她的悲伤情绪"
    }
]

# 2. 调用GPT-4V
response = openai.ChatCompletion.create(
    model="gpt-4-vision-preview",
    messages=[{"role": "user", "content": multimodal_prompt}],
    max_tokens=200
)

# 3. 输出结果
print("模型回答：", response.choices[0].message.content)

结果对比：

原提示（无对比）：“蒙娜丽莎的微笑中透露出淡淡的悲伤……”；
对比提示：“1. 图像中的表情是微笑；2. 文本中的‘悲伤情绪’与图像表情不一致；3. 无法解释‘悲伤情绪’，因为图像中的蒙娜丽莎在微笑。”

进阶技巧：语义一致性评分（Semantic Consistency Score）

对于需要严格模态一致的任务（如医疗影像诊断），可以用语义一致性评分量化模态间的冲突：

用CLIP模型计算图像特征与文本特征的余弦相似度（范围0-1）；
如果相似度低于阈值（如0.5），直接拒绝回答。

代码示例：

from transformers import CLIPProcessor, CLIPModel

# 加载CLIP模型
processor_clip = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
model_clip = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")

# 计算图像与文本的语义一致性
def compute_consistency(image, text):
    inputs = processor_clip(text=[text], images=image, return_tensors="pt", padding=True)
    outputs = model_clip(**inputs)
    logits_per_image = outputs.logits_per_image  # 图像到文本的 logits
    probs = logits_per_image.softmax(dim=1)  # 转换为概率
    return probs[0][0].item()  # 返回图像与文本的一致性概率

# 测试
image = Image.open("mona_lisa.jpg")
text = "悲伤的情绪"
consistency = compute_consistency(image, text)
print("语义一致性：", consistency)  # 输出约0.1（很低，说明冲突）

四、多模态提示工程的设计原则（总结版）

通过以上5个坑点的分析，我们可以总结出多模态提示工程的5条黄金原则：

原则	解释
1. 模态显式关联	用`<image1>`等标识绑定文本与模态，避免“指代不明”
2. 偏差主动校准	用反偏差指令和Few-Shot示例修正模型的训练数据偏差
3. 优先级明确标记	用权重标记或分步提示，让模型聚焦关键模态细节
4. 长序列分段检索	用时间戳分段+向量检索，解决长序列模态的上下文遗忘问题
5. 语义冲突先检测	用对比提示或语义一致性评分，先识别模态冲突再回答

五、项目实战：构建多模态图文问答系统

接下来，我们用LangChain（提示工程框架）和GPT-4V，实战构建一个“多模态图文问答系统”——用户上传一张商品图，输入文本问题，系统返回结合图文的答案。

5.1 开发环境搭建

安装依赖：

pip install langchain openai pillow python-dotenv

配置环境变量（.env文件）：
```
OPENAI_API_KEY=your-api-key
```

5.2 系统架构设计（Mermaid流程图）

graph TD
    A[用户输入] --> B{输入类型}
    B -->|图像| C[图像预处理（转Base64）]
    B -->|文本| D[文本预处理（结构化）]
    C & D --> E[构建多模态提示]
    E --> F[调用GPT-4V]
    F --> G[解析结果]
    G --> H[输出答案]

5.3 源代码实现

from langchain.prompts import ChatPromptTemplate
from langchain.schema.messages import HumanMessage
from langchain_openai import ChatOpenAI
from PIL import Image
import base64
import io
from dotenv import load_dotenv
import os

# 1. 加载环境变量
load_dotenv()
openai_api_key = os.getenv("OPENAI_API_KEY")

# 2. 图像预处理函数
def image_to_base64(image: Image.Image) -> str:
    buffered = io.BytesIO()
    image.save(buffered, format="PNG")
    return base64.b64encode(buffered.getvalue()).decode()

# 3. 构建多模态提示模板
prompt_template = ChatPromptTemplate.from_messages([
    HumanMessage(content=[
        {"type": "text", "text": "请结合<image1>的内容，回答以下问题：{question}"},
        {"type": "image_url", "image_url": {"url": "data:image/png;base64,{image_base64}"}}
    ])
])

# 4. 初始化LangChain的OpenAI客户端
llm = ChatOpenAI(model="gpt-4-vision-preview", max_tokens=200)

# 5. 多模态问答函数
def multimodal_qa(image_path: str, question: str) -> str:
    # 加载图像并转Base64
    with Image.open(image_path) as img:
        image_base64 = image_to_base64(img)
    # 格式化提示
    formatted_prompt = prompt_template.format_messages(
        question=question,
        image_base64=image_base64
    )
    # 调用模型
    response = llm.invoke(formatted_prompt)
    # 返回结果
    return response.content

# 6. 测试
if __name__ == "__main__":
    image_path = "product.jpg"  # 商品图（比如一件红色连衣裙）
    question = "这件连衣裙的颜色是什么？适合什么场合穿？"
    answer = multimodal_qa(image_path, question)
    print("问题：", question)
    print("回答：", answer)

5.4 结果演示

假设product.jpg是一件“红色蕾丝连衣裙”，运行代码后输出：

问题：这件连衣裙的颜色是什么？适合什么场合穿？
回答：这件连衣裙的颜色是红色。它的材质是蕾丝，设计较为优雅，适合婚礼、晚宴或约会等正式或半正式场合。

六、工具与资源推荐

6.1 提示工程框架

LangChain：支持多模态提示的构建、管理和链式调用；
LlamaIndex：用于多模态数据的索引和检索，解决长序列问题；
PromptLayer：提示工程的调试工具，可跟踪提示的调用历史和效果。

6.2 多模态模型

GPT-4V：通用多模态模型，适合图文问答、生成；
Claude 3：支持更长的文本和视频输入，适合复杂任务；
Gemini Pro Vision：谷歌的多模态模型，对图像细节处理较好；
BLIP-2：开源多模态模型，适合自定义训练。

6.3 数据集

COCO：大规模图文对齐数据集，用于训练多模态模型；
Flickr30k：图文描述数据集，适合提示工程的Few-Shot示例；
VQA：视觉问答数据集，用于测试多模态提示的效果。

6.4 学习资源

OpenAI多模态提示文档：https://platform.openai.com/docs/guides/vision
Google Gemini提示指南：https://ai.google.dev/docs/prompt_best_practices
Hugging Face多模态教程：https://huggingface.co/learn/computer-vision-course/unit7/multimodal