小白也能懂:大模型提示工程入门与实战 | 精华教程建议收藏
文章介绍了Prompt工程这一与大语言模型交互的核心技术,对比了传统微调范式与新兴提示预测范式。详细阐述了Prompt的四大基本元素、上下文学习(零样本、单样本、少样本)和思维链技术(按部就班、三思后行、集思广益)等关键技术,并提供了实用的Prompt设计技巧,包括明确任务说明、清晰上下文、规范输出格式和清晰排版等,帮助用户更有效地利用大语言模型完成各类任务。传统的自然语言处理研究遵循“预训练-微
文章介绍了Prompt工程这一与大语言模型交互的核心技术,对比了传统微调范式与新兴提示预测范式。详细阐述了Prompt的四大基本元素、上下文学习(零样本、单样本、少样本)和思维链技术(按部就班、三思后行、集思广益)等关键技术,并提供了实用的Prompt设计技巧,包括明确任务说明、清晰上下文、规范输出格式和清晰排版等,帮助用户更有效地利用大语言模型完成各类任务。
传统的自然语言处理研究遵循“预训练-微调-预测”范式,即先在大规模语料 库上作预训练,然后在下游任务上微调,最后在微调后的模型上进行预测。然而, 随着语言模型在规模和能力上的显著提升,一种新的范式——“预训练-提示预测” 应运而生,即在预训练模型的基础上,通过精心设计Prompt引导大模型直接适应 下游任务,而无需进行繁琐微调。

Prompt 工程(PromptEngineering),又称提示工程,是指设计和优化用于与生 成式人工智能模型交互的Prompt的过程。这种技术的核心在于,将新任务通过 Prompt 构建为模型在预训练阶段已经熟悉的形式,利用模型固有的泛化能力来执 行新的任务,而无需在额外的特定任务上进行训练。Prompt工程的成功依赖于对预训练模型的深入理解,以及对任务需求的精确把握。通过构造合适的Prompt输入给大语言模型,大语言模型能够帮助我们完成各种任务。

因为大语言模型的微调代价较高,基于自然语言的提示方法已经成为了使用 大语言模型解决下游任务的主要途径。由于提示的质量在很大程度上会影响大语 言模型在特定任务中的表现,因此一系列工作深入研究了通过人工设计或自动优化的方法来生成合适的任务提示。任务提示的设计主要依靠人工设计和自动优化两种策略来实现。
Prompt 的四个基本元素——任务说明、上下文、问题和输出格式,对于大语言模型生成的效果具有显著影响。这些元素的精心设计和组合构成了Prompt工程的核心。在此基础上,Prompt工程包括多种技巧和技术,如上下文学习(In-Context Learning)和思维链(ChainofThought)等。这些技巧和技术的结合使用,可以显著提升Prompt的质量,进而有效地引导模型生成更符合特定任务需求的输出。
1、上下文学习(In-Context Learning)
随着模型训练数据规模和参数数量的持续扩大,大语言模型涌现出了上下文学习(In-Context Learning,ICL)能力。其使得语言模型能够通过给定的任务说明或示例等信息来掌握处理新任务的能力。
引入上下文学习,我们不再需要针对某个任务训练一个模型或者在预训练模型上进行费时费力的微调,就可以快速适应一些下游任务。这使得用户可以仅仅通过页面或者API的方式即可利用大语言模型来解决下游任务,为“语言模型即服务”(LLMasaService)模式奠定了坚实的能力基础。

按照示例数量的不同,上下文学习可以呈现出多种形式:零样本(Zero-shot)上下文学习、单样本(One-shot)上下文学习和少样本(Few-shot)上下文学习。
零样本上下文学习:在此种学习方式下,仅需向模型提供任务说明,而无需提供任何示例。其具有强大的场景泛化能力。但零样本学习的性能完全依赖于大语言模型的能力,并且在处理任务时可能表现欠佳。
单样本上下文学习:这种方式仅需为模型提供一个示例,贴合人类“举一反 三”的学习模式。不过,单样本学习的效果强依赖于示例相对于任务的代表 性。
小样本上下文学习:这种方法通过为模型提供少量的示例(通常为几个至十几个),显著提升模型在特定任务上的表现。但在,示例的增加会显著增加大语言模型推理时的计算成本。示例的代表性和多样性也将影响其生成效果。

2、思维链(ChainofThought)
随着语言模型参数规模的持续扩张,其可以更好地捕捉语言特征和结构,从而在语义分析、文本分类、机器翻译等自然语言处理任务中的表现显著增强。但是,在面对算术求解、常识判断和符号推理等需要复杂推理能力的任务时,模型参数规模的增长并未带来预期的性能突破,这种现象被称作“FlatScalingCurves”
这表明,仅靠模型规模的扩大不足以解决所有问题,我们需要探索新的方法以提升模型的推理能力和智能水平。人类在解决复杂问题时,通常会逐步构建推 理路径以导出最终答案。基于这一理念,一种创新的Prompt范式——思维链提示 (Chain-of-Thought,CoT)被用于引导模型进行逐步推理。CoT可以显著提升大语言模型处理复杂任务中的表现,从而突破“FlatScalingCurves”的限制,激发大语言模型的内在推理潜能。
CoT方法的核心是构造合适的Prompt以触发大语言模型一步一步生成推理路 径,并生成最终答案。在CoT核心思想的指引下,衍生出了一系列的扩展的方法。这些扩展的方法按照其推理方式的不同,可以归纳为三种模式:按部就班、三思后行和集思广益。

按部就班,在按部就班模式中,模型一步接着一步地进行推理,推理路径形 成了一条逻辑连贯的链条。在这种模式下,模型像是在遵循一条预设的逻辑 路径,“按部就班”的一步步向前。这种模式以Zero-ShotCoT、 Auto-CoT 等方法为代表。


三思后行,在三思后行模式中,模型每一步都停下来估当前的情况,然后从 多个推理方向中选择出下一步的行进方向。在这种模式下,模型像是在探索 一片未知的森林,模型在每一步都会停下来评估周围的环境,“三思后行”以 找出最佳推理路径。这种模式以ToT、GoT等方法为代表。

在这个例子中,给定4个数字,然后让大语言模型利用加减乘除(±*/)四个运算符来组合这四个数字,使 得最终的运算结果为24。首先,ToT基于当前所剩下的数字,通过上下文学习让模 型选择两个数字作运算,并生成多个方案,在图上表现为思维树的多个子节点。之后以广度优先搜搜的方式遍历每一个子节点,评估当前剩余的数字是否能够凑到 24 点,保留可能凑出24点的节点,这一步也是通过上下文学习的方式来实现的。 不断重复上述两个步骤,直到得出最终合理的结果。
集思广益,在集思广益模式中,模型同时生成多条推理路径并得到多个结果, 然后整合这些结果,得到一个更为全面和准确的答案。在这种模式下,模型像 是在召开一场智者的会议,每个智者都带来了自己的见解,最终通过讨论和 整合,“集思广益”得出一个更优的结论。这一类模式以Self-Consistency等方法为代表。

Self-Consistency 的实现过程可以分为三个步骤:(1)在随机采 样策略下,使用CoT或Zero-ShotCoT的方式来引导大语言模型针对待解决问题生 成一组多样化的推理路径; (2)针对大语言模型生成的每个推理内容,收集其最终的答案,并统计每个答案在所有推理路径中出现的频率; (3)选择出现频率最高的答案作为最终的、最一致的答案。
3、Prompt 技巧
基于上下文学习和思维链等Prompt工程技术,将进一步探讨可用于进一 步提升大语言模型生成质量的Prompt技巧,包括合理归纳提问、适时运用思维链 (CoT)以及巧妙运用心理暗示等。
编写规范的Prompt是我们与大语言模型进行有效沟通的基础。经典的Prompt 通常由任务说明,上下文,问题,输出格式等部分中的一个或几个组成。
1. 任务说明要明确
-
使用明确的动词:选择能够清晰表达动作的动词,如“判断”、“分类”、“生 成”等,避免使用模糊的动词如“处理”或“操作”。
-
具体的名词:使用具体的名词来定义任务的输出或目标,例如“积极”和“消 极”在情感分类任务中提供了明确的分类标准。
-
简洁明了:任务说明应简洁且直接,避免冗长或复杂的句子结构,使模型能 够快速抓住任务的核心要求。 到的是最关键的任务信息。
-
结构化布局:在较长的Prompt中,将任务说明放置在开头和结尾,因为模型通常更关注这些部分的信息。这种布局有助于确保模型首先和最后接触到的是最关键的任务信息。

2. 上下文丰富且清晰
上下文可以包括与问题直接相关的背景信息、具体的演示示例,或是对话的连续性内容。例如,在情感分类任务中,提供具体的示例句子及其对应的情感标签,可以帮助模型更好地理解任务的具体要求和预期的输出。上下文的清晰性则要求上下文信息必须与问题紧密相关, 避免包含冗余或不必要的信息。清晰的上下文应直接指向任务的核心,减少模型在处理信息时的混淆和误解。例如,在问答任务中,上下文应仅包含与问题直接相关的信息,避免引入可能误导模型的无关内容。

在上图个上下文设计的例子中,第一个例子的上下文紧密围绕问题,提 供了丰富的直接相关信息,没有任何冗余内容。这种设计有助于模型迅速聚焦于 关键信息,从而准确回答问题。相比之下,第二个例子的上下文不够丰富,并且单 个例子则包含了大量与问题无关的细节,这些冗余信息不仅使上下文显得不明确, 还可能加重模型处理信息的负担,导致模型难以准确把握问题的核心,进而影响其回答的准确性。
3. 输出格式要规范
规范的输出格式对于确保模型输出的可用性和准确性至关重要。通过指定明 确的输出格式,可以使模型的输出结构化,便于下游任务直接提取和使用生成内 容。常用的输出格式包括JSON、XML、HTML、Markdown和CSV等,每种格式 都有其特定的用途和优势。

在图3.19中的Prompt例子中,“以{”结果”: “ ”}”的JSON格式返回最 终答案。”明确指定了答案应以JSON格式输出,并且以一个简短的例子指明JSON 中的关键字。这种规范的输出格式不仅使得结果易于解析和处理,还提高了模型 输出的准确性和一致性。如果不明确规定输出格式,模型可能会输出非结构化或 不规范的结果,这会增加后续处理的复杂性。在第二个例子中,如果模型输出的答 案是一个自由格式的文本字符串,那么提取具体信息就需要进行复杂的字符串解析,而不是像JSON等结构化格式那样可以直接提取,这就给后续对于结果的处理 与使用带来了麻烦。
4. 排版要清晰
清晰的排版通常涉及使用合适的分隔符 和格式化技巧,将Prompt的不同组成部分(如任务说明、上下文、问题和输出格 式)明确区分开来。
为了确保Prompt的排版清晰,可以采取以下措施:
- 使用一致的分隔符:选择并坚持使用一种或几种分隔符(如“#”、“###”、“—” 等),以区分不同的Prompt部分
- 合理使用空白和缩进:通过增加空白行和适当的缩进,增强Prompt的可读 性,帮助模型区分不同的内容块。
- 清晰的标题和子标题:为每个部分提供清晰的标题或子标题,使模型能够快 速识别每个部分的主题。

5、合理归纳提问
- 复杂问题拆解

- 追问:深入追问、扩展追问、反馈追问



6、适时使用CoT
思维链技术(Chainof Thought,CoT) 是在处理涉及算术、常识和符号 推理等复杂推理的任务时的理想选择。在处理这类任务的过程中,通过CoT引导 模型理解和遵循中间步骤,能够显著提高得出答案的准确率。
1.在任务类别方面,CoT技术特别适用于需要复杂推理的任务,如算术、常识和 符号推理。在这些任务上,CoT能够引导大语言模型生成逻辑严密、条理清晰的中 间推理步骤,从而提高正确答案的生成概率,如图3.25所示。然而,对于情感分类、常识问答等简单问题,反而可能引入不必要的复杂性。 常识问答等简单问题,标准的Prompt方法已足够有效,使用CoT可能难以提升效果,反而可能引入不必要的复杂性。

2.在模型规模的考量上,CoT技术应用于参数量超过千亿的巨型模型时,能够显 著提升其性能,例如,PaLM模型和GPT-3模型等模型。然而,在规模较小的模型上应用CoT技术可能会遭遇挑战,如生成逻辑不连贯的思维链,或导致最 终结果的准确性不如直接的标准提示方法

使用不同的CoT形式:我们可以根据不同任务场景,选择不同的CoT形式。 在不需要特定领域知识,仅需对问题进行逻辑推理和逐步分析时,可以使用 Zero-Shot CoT 或者AutoCoT的方式,通过“让我们一步一步思考”这种CoT 提示触发词,来引导模型以CoT的形式回答内容。在处理需要高准确度和 可靠性的任务时,可要求模型生成多个回答并提出最终结果,进而运用Self Consistency 方法筛选出一致性最强的答案。

7、善用心理暗示
- 角色扮演

- 情景代入

如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】


为什么要学习大模型?
我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。


大模型入门到实战全套学习大礼包
1、大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

2、大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

3、AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

4、大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

5、大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

适用人群

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐


所有评论(0)