建议反复阅读！提示学习：预训练模型的新范式，这才是开启大模型“智慧之门”的钥匙。

提示学习是预训练模型发展史上的一个重要里程碑，它以一种更自然、更高效的方式，释放了PLMs蕴含的巨大潜力。随着技术的不断演进，提示学习必将成为推动人工智能迈向更通用、更智能未来的核心驱动力之一。

小天才学习机打游戏

975人浏览 · 2025-12-24 14:39:39

小天才学习机打游戏 · 2025-12-24 14:39:39 发布

提示学习（Prompt Learning）作为连接预训练语言模型（PLMs）与下游任务的桥梁，有效弥合了预训练与微调之间的鸿沟。本文基于《提示学习研究综述》doi：10.3778/j.issn.1002-8331.2407-0436 一文，系统梳理了提示学习的核心思想、两大关键步骤（提示模板与语言表达器），带您深入了解这一驱动大模型能力跃升的关键技术。

一、提示学习：弥合预训练与微调的鸿沟

传统的“预训练-微调”（Pre-train and Fine-tune）范式，虽然在自然语言处理（NLP）等领域取得了显著成就，但其核心问题在于预训练任务（如掩码语言建模MLM）和下游微调任务之间存在巨大的数据和目标函数差距。这限制了预训练语言模型（PLMs）中通用知识向特定任务的有效迁移。

提示学习的提出，正是为了解决这一问题。它借鉴了迁移学习的思想，通过设计有效的提示，将下游任务转化为PLMs在预训练阶段更熟悉的完形填空任务形式。

核心思想： 将提示模板插入到原始输入中，将任务数据转化为自然语言形式输入PLMs，模型输出预测结果后，再通过语言表达器将输出映射到相应的标签。

这种范式不仅缩小了差距，还使得PLMs能够很好地应用于小样本（Few-shot）甚至零样本（Zero-shot）场景。

图注：传统范式（a）需要为每个下游任务微调模型；提示学习范式（b）通过特定提示，使PLMs适应多任务，灵活性更高。

想象一下，你有一个超级学霸（预训练语言模型，PLM），他读完了人类所有的书，知识渊博。在传统范式：“预训练-微调”（PFT）下，我们要让学霸完成一个新任务（比如判断一句话的情感），需要给他看几千个标注好的例子，然后微调他大脑里的所有知识结构，让他专门去适应这个任务。这不仅耗时耗力，而且如果新任务的数据太少，学霸很容易“偏科”（过拟合）。而在提示学习（Prompt Learning）范式下，它不改变学霸的大脑结构，而是给他一个巧妙的提示，让他用已有的知识来解决问题。

以情感分析任务为例，提示学习将其转化为完形填空任务：

图注：提示学习将“I like eating apples.”（原始输入）与“It was [MASK].”（提示模板）融合，PLM预测[MASK]位置的词，语言表达器将预测词（如great）映射到标签（positive）。

补充示例：

任务： 判断“这杯咖啡太棒了”的情感。

传统微调： 训练模型识别“太棒了”是正面情感。

提示学习： 给模型一个提示：“这杯咖啡太棒了。总的来说，这是一种[MASK]的体验。”

模型只需要像做完形填空一样，填入“正面”或“积极”即可。

提示学习的优势显而易见：

高效： 无需微调整个模型，节省了巨大的计算资源。
巧用： 充分利用了PLM在预训练阶段学到的通用知识。
零/小样本： 在数据极度匮乏的情况下，也能通过提示引导模型做出准确判断。

二、提示学习的“两板斧”：模板与表达器

提示学习的实现，就像设计一个精妙的“填空题”和“答案解析器”，主要依赖于两大核心组件：提示模板和语言表达器。

图注：提示学习的整体框架，分为基于提示模板的方法和基于语言表达器的方法两大类。

1. 提示模板的构建：如何“提问”

提示模板是提示学习的“灵魂”，它决定了模型如何理解任务。构建方法主要分为两大类：

提示模板构建方法	核心思想	关键技术	通俗示例
离散提示（硬提示）	在离散的词汇空间中构建或搜索提示，通常是自然语言文本。	人工构建：依赖领域专家知识，如GPT-3、PET。自动构建：通过算法搜索最佳的离散提示，如AutoPrompt、LM-BFF。	情感分析： “这部电影太棒了。它让我感觉很[MASK]。” 搜索最佳词汇：算法自动找到比“感觉很”更有效的连接词。
连续提示（软提示）	在连续的嵌入空间中学习可优化的向量作为提示，不直接对应自然语言词汇。	Prefix-tuning：只优化一个较小的、连续的、特定于任务的向量，固定PLMs参数。 Prompt-tuning： Prefix-tuning的简化版，学习连续提示来调整固定参数的LM。	参数高效：相当于在模型的输入层插入一段可训练的“暗号”，只训练暗号，不训练模型主体。
引入外部知识	将知识图谱、词典等外部知识融入提示构建，增强提示的语义信息。	KPT：利用知识图谱中的实体关系信息来构建提示。
思维提示（X-of-Thought）	模拟人类的思考过程，将复杂问题分解为多个简单步骤。	思维链（CoT）：通过中间推理步骤引导模型进行逻辑推理。	思维链（CoT）： “请一步一步思考，然后给出答案。”

1.1 人工构建提示模板（Hard Prompting）

依赖领域专家知识手动设计提示，通常是自然语言文本。

NLP领域： LAMA方法通过人工模板探索PLMs中的事实知识；GPT-3使用人工提示适应生成任务；PET方法利用人工模板将输入重述为完形填空式短语。
CV和多模态领域：****CLIP模型（如图4所示）通过人工构建文本提示（如“A photo of a {object}.”），将图像分类转化为图像-文本匹配问题，实现零样本迁移。SAM模型（如图5所示）则通过提示编码器接收点、框、文本等提示信息，实现通用图像分割。

图注： CLIP通过文本编码器将提示文本转化为向量，计算图像向量与文本向量的相似度，实现零样本迁移。

图注：SAM模型通过提示编码器处理点、框、文本等提示信息，与图像编码向量结合，由掩码解码器输出有效掩码。

1.2 自动构建提示模板

旨在克服人工构建的耗时耗力及效果不佳的问题。

离散提示： 在离散空间中自动搜索最佳提示。例如，AutoPrompt使用基于梯度的搜索来确定最佳提示词，LM-BFF使用T5模型自动创建提示模板。
连续提示（Soft Prompting）： 采用可学习向量作为提示模板，在连续嵌入空间中学习最优提示。

Prefix-tuning： 如图6所示，保持PLM参数固定，只优化一个较小的、连续的、特定于任务的前缀向量，适用于自然语言生成任务。
Prompt-tuning： 可看作Prefix-tuning的简化，只在输入层学习连续提示。
CV领域：****CoOp首次将连续提示应用于CV，通过可学习向量对提示进行上下文建模；CoCoOp引入输入-条件向量，增强泛化能力；VPT（如图7所示）在CV Transformer中只引入少量任务特定的可学习参数（视觉提示），保持主干参数不变。

图注：传统微调（上）与Prefix-tuning（下）的对比，Prefix-tuning实现了参数高效微调。

图注： VPT在Transformer的输入端插入可学习的视觉提示（Prompt），仅优化提示参数，实现CV领域的参数高效微调。

1.3 引入外部知识构建提示

将知识图谱、词典等外部知识融入提示构建，增强提示的语义信息和准确性。例如，KPT利用知识图谱中的实体关系信息来构建提示。

1.4 思维提示（X-of-Thought）

旨在增强模型的逻辑推理能力。思维链（Chain-of-Thought, CoT） 是典型代表，它通过构建思维推理提示，将复杂的推理问题分解为多个简单的步骤，模拟人类思考过程。

2. 语言表达器的构建：如何“解读”

语言表达器负责将PLMs在完形填空任务中预测出的词汇（如[MASK]位置的词）映射回最终的任务标签（如“正面”或“负面”）。

语言表达器构建方法	核心思想	关键技术	通俗示例
人工表达器	专家手动定义标签词与标签的映射关系，如将`great`映射为`positive`。	简单直观，但依赖人工经验，且标签词选择可能影响性能。	映射：将模型填入的“积极”、“正面”、“棒极了”都映射为最终标签“正面”。
基于搜索的表达器	通过搜索算法在词汇表中寻找最佳的标签词集合。	PET：在训练过程中搜索最佳的标签词。	优化映射：算法发现“令人愉悦”比“好”更能准确代表“正面”标签。
软表达器	学习一个可训练的矩阵，将模型输出的词汇嵌入空间映射到标签空间。	Soft Verbalizer：避免了对离散标签词的依赖，直接在连续空间进行映射。	自动匹配：机器自动学习“正面”和“积极”在向量空间中的相似性，并将其归为一类。
引入外部知识	利用外部知识（如词典、知识图谱）来辅助标签词的选择和映射。	KPT：利用知识图谱信息来增强标签词的选择。

三、提示学习的应用

提示学习已广泛应用于NLP、CV和多模态等多个领域。

领域	典型任务	关键模型/方法
NLP	情感分析、文本分类、关系抽取、自然语言推理	PET、LM-BFF、CoT
CV	图像分类、视频动作识别、视觉定位	CLIP、CoOp、VPT、SAM
多模态	视觉问答、多模态机器翻译、多模态情感分析	CLIP、CPT、VL-T5

1. 计算机视觉（CV）领域的应用

在CV领域，提示学习主要用于将视觉任务转化为模型更熟悉的“文本-图像”匹配任务，实现零样本迁移。

关键模型	核心思想	提示形式	应用场景
CLIP	将图像分类任务转化为“图像-文本”匹配。通过人工构建文本提示（如“A photo of a {class}.”），计算图像特征与提示文本特征的相似度进行分类。	人工离散提示	零样本图像分类
CoOp/CoCoOp	针对CLIP中人工提示的局限性，引入可学习的连续向量作为提示，提升模型适应性。	连续提示	图像识别
VPT (Visual Prompt Tuning)	在Transformer主干参数固定的情况下，只在输入空间引入少量任务特定的可学习参数（视觉提示）。	连续提示	图像识别、目标检测
SAM (Segment Anything Model)	这是一个通用的图像分割模型，通过提示编码器接收点、框、文本等提示信息，实现交互式分割。	多模态提示	图像分割

2. 多模态领域的应用

提示学习在多模态任务中，如视觉问答、多模态情感分析等，通过设计跨模态提示，促进不同模态信息（如图像和文本）的融合与理解。例如，**CPT（Cross-modal Prompt Tuning）**方法首次将视觉定位任务表述为完形填空问题，通过视觉和文本提示来引导模型建立查询文本和图像之间的联系。

四、挑战与展望

提示学习虽然取得了巨大的成功，但仍面临着诸多挑战，同时也预示着未来的发展方向。

1. 现有挑战

提示理解与设计： 提示模板的微小变化可能导致模型性能的巨大波动，如何设计出鲁棒性强的提示仍是难题。
知识迁移与泛化： 如何确保提示学习在面对新的、未知的领域时，具有更强的领域泛化能力。
多模态应用： 如何设计更有效的跨模态提示，以实现不同模态信息的深度融合和理解。

2. 未来展望

通用化与自动化： 发展更加通用的提示学习框架，实现提示模板和语言表达器的全自动、自适应生成，减少对人工经验的依赖。
提示与推理的结合： 进一步探索思维链（CoT）等方法，增强模型的逻辑推理和复杂问题解决能力。
提示驱动的知识蒸馏： 利用提示学习将大模型的知识高效地迁移到小模型中，实现模型轻量化。
提示与强化学习的结合： 利用强化学习来优化提示的生成过程，以获得更有效的提示。

总结： 提示学习是预训练模型发展史上的一个重要里程碑，它以一种更自然、更高效的方式，释放了PLMs蕴含的巨大潜力。随着技术的不断演进，提示学习必将成为推动人工智能迈向更通用、更智能未来的核心驱动力之一。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述