收藏！让大模型更高效：LLM提示词优化的4个实用技巧

本文介绍了四种提升大语言模型性能的实用技巧：1）利用缓存token机制，将静态内容置于提示开头以降低成本；2）将用户问题放在提示末尾可提升30%响应质量；3）使用专业提示优化工具改进提示结构；4）建立定制化基准测试选择最佳模型。这些方法简单易行，能显著优化成本、延迟和输出质量，适合快速应用于实际项目。

编程唐小宝

903人浏览 · 2025-12-12 19:12:24

编程唐小宝 · 2025-12-12 19:12:24 发布

本文介绍了四种提升大语言模型(LLM)应用性能的技术：利用缓存token降低成本和延迟，将用户问题置于提示末尾可提升30%性能，使用提示优化器改进提示结构，以及建立定制化LLM基准测试选择最适合模型。这些简单技巧能显著提升响应质量、降低成本，且易于实施。

大模型（LLM）能够自动化大量任务。自2022年ChatGPT发布以来，市场上涌现出越来越多利用 LLM 的AI产品。然而，我们在使用 LLM 的方式上仍有许多可改进之处。例如，使用提示词优化工具改进你的提示（prompt），以及利用缓存的token，就是两种简单却能显著提升 LLM 应用性能的技术。

在本文中，我将介绍几种具体的技巧，帮助你优化提示的创建与结构，从而降低延迟和成本，同时提升生成结果的质量。本文的目标是为你提供这些切实可行的方法，让你能够立即将其应用到自己的 LLM 项目中。

这张信息图突出了本文的主要内容。我将讨论四种不同的技术，可显著提升你的 LLM 应用在成本、延迟和输出质量方面的表现。具体包括：利用缓存 token、将用户问题置于提示末尾、使用提示优化器，以及建立你自己的定制化 LLM 基准测试。（图片由 Gemini 提供。）

为什么要优化你的提示？

在很多情况下，你可能已经有一个能在特定 LLM 上运行并产生尚可结果的提示。但很多时候，你并未花时间对提示进行优化，这就意味着你错失了大量潜在的性能提升空间。

我认为，通过本文介绍的具体技术，你可以轻松地在几乎不增加额外工作量的前提下，同时提升响应质量并降低成本。仅仅因为一个提示和 LLM 能“跑通”，并不意味着它已达到最优性能。事实上，在很多场景下，只需稍作调整，就能获得显著改进。

优化提示的具体技巧

在本节中，我将详细介绍可用于优化提示的几种具体方法。

1. 始终将静态内容放在提示开头

我要介绍的第一个技巧是：始终将静态内容（static content）放在提示的最前面。所谓静态内容，是指在多次 API 调用中保持不变的部分。

之所以要这么做，是因为所有主流 LLM 服务商（如 Anthropic、Google 和 OpenAI）都支持缓存 token（cached tokens）。缓存 token 是指在先前 API 请求中已被处理过的 token，再次使用时可以以更低的成本和更快的速度进行处理。不同服务商的具体策略略有差异，但通常缓存输入 token 的价格约为普通输入 token 的 10%。

缓存 token 是指在之前的 API 请求中已经被处理过的 token，再次使用时比普通 token 更便宜、更快。

这意味着，如果你连续两次发送完全相同的提示，第二次请求中的输入 token 成本将仅为第一次的十分之一。这是因为 LLM 服务商会对这些输入 token 的处理结果进行缓存，从而让新请求的处理更便宜、更迅速。

在实践中，要有效利用 token 缓存，关键在于将变量内容放在提示末尾。

例如，如果你有一个很长的系统提示（system prompt），而每次请求的用户问题不同，你应该这样组织提示：

prompt =f"""{long static system prompt}{user prompt}"""

举个例子：

prompt =f"""你是一位文档专家……
你应始终按以下格式回复……
如果用户询问……
你应该回答……
{user question}"""

这里，我们将提示中不变的部分（静态内容）放在前面，而将变化的部分（用户问题）放在最后。

在某些场景中，你可能需要传入文档内容。如果你要处理大量不同的文档，应将文档内容放在提示末尾：

# 处理不同文档时
prompt =f"""{static system prompt}
{variable prompt instruction 1}
{document content}
{variable prompt instruction 2}
{user question}"""

但如果你多次处理同一份文档，那么为了确保文档内容也能被缓存，你需要保证在文档内容之前没有任何变量内容：

# 多次处理相同文档时
prompt =f"""{static system prompt}
{document content}  # 确保在任何变量指令之前
{variable prompt instruction 1}
{variable prompt instruction 2}
{user question}"""

需要注意的是，缓存 token 通常只有在两个请求的前 1024 个 token 完全相同时才会被激活。例如，如果上面示例中的静态系统提示长度不足 1024 个 token，你就无法利用缓存机制。

# 切勿这样做！
prompt =f"""{variable content} <--- 这会完全破坏缓存机制
{static system prompt}
{document content}
{variable prompt instruction 1}
{variable prompt instruction 2}
{user question}"""

最佳实践：
你的提示结构应始终遵循“从最静态到最动态”的原则——即先放变化最少的内容，再逐步加入变化最多的内容。

如果你有一个很长但不含变量的系统提示和用户提示，应将其放在最前面，变量放在最后。
如果你要从文档中提取文本（例如处理同一份文档多次），应确保文档内容位于所有变量之前，以充分利用缓存。

2. 将问题放在提示末尾

另一个提升 LLM 性能的有效技巧是：始终将用户问题放在提示的末尾。理想情况下，你的系统提示应包含所有通用指令，而用户提示仅包含用户的问题本身，如下所示：

system_prompt ="<通用指令>"
user_prompt =f"{user_question}"

Anthropic 在其提示工程文档中指出，将用户问题放在末尾最多可提升 30% 的性能，尤其是在使用长上下文时。把问题放在最后能让模型更清晰地理解当前任务目标，从而在多数情况下生成更高质量的回答。

3. 使用提示优化器（Prompt Optimizer）

人类编写的提示往往杂乱、不一致、包含冗余内容，且缺乏结构。因此，你应始终将提示通过一个提示优化器进行处理。

最简单的优化方式是直接让一个 LLM 来优化你的提示，例如：

“请优化以下提示：{prompt}”

LLM 会返回一个结构更清晰、冗余更少的新提示。

但更好的做法是使用专门的提示优化工具，例如 OpenAI 或 Anthropic 控制台中提供的优化器。这些工具是经过专门设计和调优的 LLM，专门用于优化提示，通常效果更佳。

此外，为了获得最佳优化结果，你应提供以下信息：

你希望完成的具体任务细节；
提示成功完成任务的示例（包括输入和输出）；
提示失败的示例（同样包括输入和输出）。

提供这些额外信息通常能显著提升优化效果。很多时候，你只需花费 10–15 分钟，就能获得一个性能大幅提升的提示。因此，使用提示优化器是提升 LLM 性能所需 effort 最低的方法之一。

4. 对 LLM 进行基准测试（Benchmarking）

你所选用的 LLM 本身也会极大影响应用的整体性能。不同模型擅长的任务各不相同，因此你需要在自己的应用场景中测试多个 LLM。我建议至少接入主流 LLM 提供商，如 Google Gemini、OpenAI 和 Anthropic。设置这些服务非常简单，一旦凭证配置完成，切换模型通常只需几分钟。此外，你也可以考虑测试开源 LLM，尽管它们通常需要更多配置工作。

接下来，你需要为你的具体任务建立专属的基准测试，以评估哪个 LLM 表现最佳。同时，你还应定期检查模型性能，因为大型 LLM 提供商有时会在不发布新版本的情况下悄悄升级模型。当然，你也应随时关注各大厂商推出的新模型，并及时尝试。

结论

在本文中，我介绍了四种可用于提升 LLM 应用性能的技术：

利用缓存 token
将用户问题置于提示末尾
使用提示优化器
建立定制化的 LLM 基准测试

这些方法都相对简单易行，却能带来显著的性能提升。我相信还有很多类似且简单的技巧尚未被广泛采用，你应该始终保持探索的心态。

AI时代，未来的就业机会在哪里？

答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具，到自然语言处理、计算机视觉、多模态等核心领域，技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。

在这里插入图片描述

掌握大模型技能，就是把握高薪未来。

那么，普通人如何抓住大模型风口？

AI技术的普及对个人能力提出了新的要求，在AI时代，持续学习和适应新技术变得尤为重要。无论是企业还是个人，都需要不断更新知识体系，提升与AI协作的能力，以适应不断变化的工作环境。

因此，这里给大家整理了一份《2025最新大模型全套学习资源》，包括2025最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题等，带你从零基础入门到精通，快速掌握大模型技术！

由于篇幅有限，有需要的小伙伴可以扫码获取！

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

为什么大家都在学AI大模型？

随着AI技术的发展，企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。

同时很多人面临优化裁员，近期科技巨头英特尔裁员2万人，传统岗位不断缩减，因此转行AI势在必行！

在这里插入图片描述

这些资料有用吗？

这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述