提示工程非但没死,还能更精进!5 个高阶玩法,突破模型性能上限
摘要:提示工程专家Sander Schulhoff指出,优质提示可显著提升AI模型准确率(从0%到90%)。文章解析提示工程的两大模式(对话模式注重灵活性,产品模式追求稳定性)和五种有效技术:少样本提示、任务分解、自我批评、附加信息和集成技术。同时指出角色提示和奖励威胁等早期技术已失效。随着大模型发展,提示工程在工业级产品中仍具重要价值,尤其在确保输出稳定性和精确性方面。文末提供大模型学习资料,助
“同一个模型,用糟糕的提示执行任务,准确率可能跌至 0%;换个好提示,准确率能直接飙升到 90%。”
说出这句行业洞见的,是提示工程领域的 OG 级人物 ——Sander Schulhoff。他不仅打造了互联网最早的提示工程指南,还牵头举办了 Hackaprompt 挑战赛,累计收集超 60 万条攻击性提示,为提示安全与优化奠定了重要实践基础。
只是近来,随着大模型智能持续升级,“提示工程已死,模型足够聪明” 的论调开始甚嚣尘上。但事实果真如此吗?当模型能力越来越强,提示工程真的失去价值了吗?
1. 提示工程的两种模式:日常对话 vs. 工业级产品
要理解提示工程,首先要明白它在不同场景下的两种核心模式,这两种模式的底层逻辑和优化目标截然不同。
-
• 对话模式 (Conversational Mode)
这就像我们与同事的头脑风暴。你和ChatGPT、Claude等模型进行一来一回的迭代式对话,逐步修正、引导,最终得到满意的结果。
这种模式追求的是灵活性和探索性。
-
• 产品模式 (Normal/Product Mode)
这更像是为自动化生产线编写一条精确、无歧义的指令。提示被设计为一次性、高度优化的“代码”,嵌入到某个产品或服务中(如自动化邮件处理、数据分析工具)。
它一旦定型,便很少改动,追求的是极致的稳定性、可靠性和成本效益。
我们今天讨论的大部分高级技巧,正是在“产品模式”中发挥着至关重要的作用。
2. 五种被验证有效的提示技术
1. Few-shot Prompting (少样本提示)
语言模型在训练阶段接触了大量类似“问题-答案”或结构化的数据格式(如JSON、XML)。
通过在提示中提供几个高质量的输入-输出范例(Examples),我们实际上是在激活模型已经学会的“模式识别”能力,引导它按照我们期望的格式和逻辑进行输出。
这比单纯用自然语言描述要求要直接和有效得多。
“当你要求LLM做一件事时,给它看好的例子是什么样的。”
实战格式:
Q: [输入示例1]
A: [期望输出示例1]
Q: [输入示例2]
A: [期望输出示例2]
Q: [我的真实输入]
A:
2. Decomposition (任务分解)
大型语言模型在处理单一、明确的任务时表现出色,但在面对一个宏大而复杂的问题时,容易出现逻辑跳跃或忽略关键细节。这与人类的工作方式类似。
将一个大项目分解成一系列小步骤,可以显著降低每个步骤的认知负荷,从而保证最终结果的准确性和完整性。
“别直接一次性解决这个问题。而是问:‘在回答之前,请告诉我需要首先解决哪些子问题?’”
实战案例
一个汽车经销商的聊天机器人收到“我想退车”的请求。直接处理非常复杂。
-
• 错误方式:
“请处理这个客户的退货请求。”
-
• 正确方式(分解):
“一个客户想退货。在回应之前,请列出你需要先解决的子问题。”
LLM的输出可能就是:
1. 确认客户身份。
2. 查询客户的车型和购买日期。
3. 检查车辆是否符合退货政策。
4. 生成相应的回复草稿。
3. Self-criticism (自我批评)
这项技术利用了LLM的推理和评估能力,构建了一个内部的“生成-评估”反馈循环。
第一次生成的内容是初稿,随后的“批评”指令则强制模型切换到“审阅者”视角,利用其庞大的知识库来检查初稿中的事实错误、逻辑漏洞或不一致之处。
这本质上是模拟了人类写作中的“草稿-修改-定稿”过程。
“你问LLM:‘你能检查一下你的回应吗?’它会输出一些东西,你让它批评自己,然后改进自己。”
执行步骤
-
1. 提问:
“总结一下引力波的发现过程。”
-
2. 要求批评:
“请检查你上面的回应,指出任何不准确或可以改进的地方。”
-
3. 要求改进:
“现在,根据你提出的批评,生成一个最终的、改进后的版本。”
4. Additional Information (附加信息/上下文)
LLM的回答质量直接取决于输入信息的丰富度和准确度。
当任务涉及专业领域或特定知识时,模型可能会因为缺乏精确的“世界知识”而产生误解。
提供附加信息,就如同给模型一个“即时词典”或“背景资料包”,帮助它在正确的知识框架内进行推理和判断,避免歧义。
“你正在尝试让模型完成某项任务。你希望尽可能多地提供关于该任务的信息。”
实战案例
在一项医疗编码任务中,需要LLM对Reddit帖子进行分类。
当遇到“Entrapment”一词时,模型可能会误解为物理上的“陷阱”。
改进提示: “...在下面的文本中,术语‘Entrapment’指的是一种心理状态,定义为‘个体感到被困在某种处境中,并且认为逃离的代价很高’。请基于这个定义进行分类...”
5. Ensembling Techniques (集成技术)
这个思想源于机器学习中的集成学习方法。
单个模型或单个提示可能会有其固有的“视角盲区”或随机性。
通过使用多个不同视角(提示、角色、甚至模型)来解决同一个问题,然后对答案进行聚合(如投票),可以有效地平滑掉单个输出的极端偏差,从而获得一个更鲁棒、更可靠的最终答案。
“集成技术会针对一个问题,用多个不同的提示来解决同一个问题……然后取最常见的答案作为我的最终答案。”
实战案例:“推理专家混合”
针对一个复杂的历史问题,你可以让三个LLM分别扮演“历史教授”、“考古学家”和“社会学家”的角色进行回答,最后综合它们的答案。
3. 不再有效的提示技术
1. Role Prompting(角色提示)
定义: 赋予AI一个角色,例如“你是一位数学教授”或“你是一位世界级文案”,然后让它执行任务。
现状:对于基于准确性的任务(如数学问题),角色提示不再能带来显著的性能提升。早期研究中的微小准确率差异(0.01%)缺乏统计学意义。
有效场景:角色提示仍适用于表达性任务(如写作、总结),因为它们影响输出的风格。例如,要求LLM以鲁迅的风格生成回答。
2. 奖励/威胁承诺无效:
定义: 在提示中加入奖励承诺(如“我会给你5美元小费”)或威胁(如“这对我职业生涯非常重要,如果答不好会有人死”)。
现状: 早期模型可能会因为这些情感化或激励性的文本在训练数据中的关联,而产生微小的性能波动。但是现在已经不再有效。
读者福利大放送:如果你对大模型感兴趣,想更加深入的学习大模型,那么这份精心整理的大模型学习资料,绝对能帮你少走弯路、快速入门
如果你是零基础小白,别担心——大模型入门真的没那么难,你完全可以学得会!
👉 不用你懂任何算法和数学知识,公式推导、复杂原理这些都不用操心; 👉 也不挑电脑配置,普通家用电脑完全能 hold 住,不用额外花钱升级设备; 👉 更不用你提前学 Python 之类的编程语言,零基础照样能上手。
你要做的特别简单:跟着我的讲解走,照着教程里的步骤一步步操作就行。
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
现在这份资料免费分享给大家,有需要的小伙伴,直接VX扫描下方二维码就能领取啦😝↓↓↓
为什么要学习大模型?
数据显示,2023 年我国大模型相关人才缺口已突破百万,这一数字直接暴露了人才培养体系的严重滞后与供给不足。而随着人工智能技术的飞速迭代,产业对专业人才的需求将呈爆发式增长,据预测,到 2025 年这一缺口将急剧扩大至 400 万!!
大模型学习路线汇总
整体的学习路线分成L1到L4四个阶段,一步步带你从入门到进阶,从理论到实战,跟着学习路线一步步打卡,小白也能轻松学会!
大模型实战项目&配套源码
光学理论可不够,这套学习资料还包含了丰富的实战案例,让你在实战中检验成果巩固所学知识
大模型学习必看书籍PDF
我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
大模型超全面试题汇总
在面试过程中可能遇到的问题,我都给大家汇总好了,能让你们在面试中游刃有余
这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。 👉获取方式:
😝有需要的小伙伴,可以保存图片到VX扫描下方二维码免费领取【保证100%免费】 相信我,这套大模型系统教程将会是全网最齐全 最适合零基础的!!
更多推荐
所有评论(0)