一、LLM 基础原理:大模型就是个 “填空游戏学霸”

1.1 什么是 LLM?

LLM(Large Language Model,大语言模型)是一种用海量文本数据训练的 AI 模型,它能理解人类语言,还能生成连贯、符合逻辑的文本。比如 ChatGPT、GPT-4、LLaMA 3、文心一言都是 LLM。

用大白话讲:大模型就像一个从小读到大的超级学霸—— 它读了互联网上的所有网页、书籍、论文、对话,甚至表情包,通过 “填空游戏” 学会了人类的语言规律和知识体系。

1.2 大模型的核心:预训练 + 微调

(1)预训练:给学霸喂亿万本书

预训练是大模型的 “基础教育阶段”,它会做 **“完形填空” 游戏 **:

  • 给模型一段不完整的文本,比如 “床前明月光,____”,让它补全空白;
  • 或者给一段文本,让它预测下一个词,比如 “今天天气真好,我想去____”。

通过亿万次这样的训练,大模型学会了:

  • 语言的语法规则(比如 “我吃饭” 不能说成 “饭吃我”);
  • 知识的关联(比如 “苹果” 是一种水果,不是手机);
  • 人类的情感和逻辑(比如 “我失恋了” 需要安慰,不是讲笑话)。
(2)微调:让学霸学专业知识

预训练后的大模型是 “通才”,但不一定适合特定任务(比如写代码、当客服、做数学题)。这时候就需要微调

  • 给模型喂一批特定领域的数据(比如 100 万行代码、10 万条客服对话);
  • 让模型在预训练的基础上,学习特定领域的规则和话术。

比如给大模型喂 100 万行 Python 代码,它就能学会写 Python 脚本;喂 10 万条电商客服对话,它就能当专业的售后客服。

1.3 大模型的 “思考”:概率预测

你可能会好奇:大模型是怎么 “思考” 的?其实它根本不会 “思考”,它只是在算概率

  • 当你输入 “我想买一个____”,大模型会计算所有可能的下一个词的概率,比如 “手机”(概率 30%)、“电脑”(概率 20%)、“杯子”(概率 5%);
  • 然后选择概率最高的词输出,再继续计算下一个词的概率,直到生成完整的句子。

这就是为什么大模型有时候会 “胡说八道”—— 如果它没学过某个知识,就会根据上下文瞎猜,比如问它 “2025 年的世界杯冠军是谁”,它会随便说一个球队,因为它的训练数据截止到某个时间点,不知道未来的结果。


二、Transformer 与注意力机制:大模型的 “大脑结构”

Transformer 是大模型的核心架构,它解决了传统 AI 模型 “长文本理解差” 的问题。而注意力机制是 Transformer 的灵魂,它让大模型能 “读懂句子的重点”。

2.1 用 “翻译官团队” 类比 Transformer

把 Transformer 比作一个专业翻译官团队,它由两部分组成:

  • 编码器(Encoder):负责 “听懂” 输入的文本(比如中文句子),把它转换成机器能理解的 “语义向量”;
  • 解码器(Decoder):负责 “生成” 输出的文本(比如英文句子),把语义向量转换成人类能理解的语言。

整个翻译过程就像:

  1. 输入中文句子 “我爱中国”;
  2. 编码器团队把句子拆成 “我”“爱”“中国” 三个词,分析每个词的语义和关联;
  3. 解码器团队根据编码器的分析,生成英文句子 “I love China”。

2.2 注意力机制:翻译官的 “重点标记笔”

注意力机制就是翻译官在翻译时用的 **“重点标记笔”**—— 它能让模型关注句子中最重要的词,忽略不重要的词。

比如翻译 “我爱吃苹果,尤其是红富士苹果”:

  • 翻译 “苹果” 的时候,注意力机制会重点关注 “红富士”,因为它是苹果的品种;
  • 翻译 “爱吃” 的时候,注意力机制会重点关注 “我”,因为它是动作的主语。

再比如处理长句子:“小明告诉小红,他的书在桌子上,而桌子旁边的椅子上放着他的书包”—— 注意力机制能让模型知道第二个 “他” 指的是 “小明”,第三个 “他” 也指的是 “小明”,而不是 “小红”。

2.3 自注意力机制:让模型 “读懂自己”

自注意力机制是注意力机制的升级,它能让模型在同一个句子中建立词与词的关联

  • 比如句子 “猫捉老鼠,它跑得很快”,自注意力机制能让模型知道 “它” 指的是 “猫”,不是 “老鼠”;
  • 比如句子 “我昨天去了北京,那里的烤鸭很好吃”,自注意力机制能让模型知道 “那里” 指的是 “北京”。

没有自注意力机制的传统模型,处理长句子时很容易 “失忆”,比如把 “它” 当成 “老鼠”,把 “那里” 当成 “我家”。


三、提示词工程核心技巧:给学霸的 “精准考试题目”

提示词工程(Prompt Engineering)就是给大模型写 “精准的考试题目”—— 题目越清晰、要求越明确,大模型的答案就越符合你的需求。

下面是小白必须掌握的 6 个核心技巧,每个技巧都附 “反面例子 + 正面例子”:

技巧 1:指令要 “具体到极致”

❌ 反面例子:“写一篇关于猫的文章”✅ 正面例子:“写一篇 300 字以内的橘猫习性科普文章,要求语言萌系,用‘橘猫’的昵称‘大橘’代替,重点讲它的贪吃和嗜睡,结尾加一句‘大橘为重’的梗”

核心逻辑:大模型是 “学霸”,但不是 “你肚子里的蛔虫”—— 你不说清楚字数、风格、重点,它就会输出最通用的内容。

技巧 2:给 “示例” 比给 “规则” 更有效(Few-shot)

❌ 反面例子:“你是一个影评家,帮我分析电影《流浪地球 2》的优缺点”✅ 正面例子:“你是一个专业影评家,帮我分析电影《流浪地球 2》的优缺点,格式如下:优点:1. 特效震撼,尤其是月球爆炸的场景;2. 剧情紧凑,没有冗余的情节缺点:1. 部分角色的台词有点生硬;2. 时长太长,容易让人疲劳请按照这个格式输出,每条优缺点不超过 20 字”

核心逻辑:大模型擅长 “模仿”—— 给它一个示例,它会自动对齐你的格式和风格,比你说 100 遍规则都有用。

技巧 3:给 AI “设定角色”

❌ 反面例子:“帮我写一封辞职信”✅ 正面例子:“你是一个互联网公司的产品经理,要给领导写一封辞职信,要求语气委婉,理由是‘个人职业规划调整’,结尾表达对公司的感谢,字数不超过 200 字”

核心逻辑:不同角色的说话方式完全不同 —— 让 AI 当 “产品经理” 写辞职信,和当 “农民工” 写辞职信,风格天差地别。

技巧 4:用 “思维链” 让 AI “一步步思考”(Chain-of-Thought)

❌ 反面例子:“小明有 5 个苹果,小红有 3 个苹果,小明给小红 2 个苹果,现在他们各有几个苹果?”✅ 正面例子:“小明有 5 个苹果,小红有 3 个苹果,小明给小红 2 个苹果,现在他们各有几个苹果?请一步步计算:

  1. 小明给小红 2 个苹果后,小明的苹果数是:5-2=3 个
  2. 小红得到小明的 2 个苹果后,小红的苹果数是:3+2=5 个请按照这个格式输出”

核心逻辑:大模型擅长 “按步骤思考”—— 尤其是数学题、逻辑题,给它加 “一步步计算” 的提示,能大幅提高答案的准确率。

技巧 5:限制输出的 “边界”

❌ 反面例子:“帮我写一篇关于旅游的文章”✅ 正面例子:“帮我写一篇关于云南大理旅游的攻略,要求只写‘洱海骑行’和‘大理古城逛吃’两个景点,每个景点写 150 字,语言口语化,适合发朋友圈”

核心逻辑:大模型很容易 “跑题”—— 限制输出的主题、字数、范围,能让它的答案更聚焦。

技巧 6:用 “否定词” 明确禁止内容

❌ 反面例子:“帮我写一篇关于减肥的文章”✅ 正面例子:“帮我写一篇关于健康减肥的科普文章,要求:1. 不能推荐减肥药;2. 不能说‘节食减肥’;3. 重点讲‘运动 + 饮食’的方法,字数不超过 500 字”

核心逻辑:有时候你需要明确告诉 AI “不能做什么”—— 比如写减肥文章时禁止推荐减肥药,避免 AI 输出违规内容。


四、结构化输出:让 AI 的答案 “直接能用”

很多时候,我们需要 AI 输出结构化的内容(比如 JSON、表格、列表),而不是大段文字,这样后端能直接解析,或者你能直接复制到 Excel 里。

4.1 为什么需要结构化输出?

比如你让 AI 分析用户评论:

  • 如果 AI 输出大段文字,你需要手动整理成 “情感 + 关键词” 的格式,非常麻烦;
  • 如果 AI 输出 JSON 格式,你可以直接用 Python 解析,自动统计情感分布和高频关键词。

4.2 怎么让 AI 输出结构化内容?

核心是 **“明确告诉 AI 输出格式”**,比如:

例子 1:输出 JSON 格式
你是一个情感分析师,帮我分析以下用户评论的情感和关键词:
评论:“这家店的奶茶太甜了,珍珠也不Q,再也不来了!”
请以JSON格式输出,包含字段:
- sentiment:情感(positive/negative/neutral)
- keywords:关键词数组
- reason:情感原因(不超过50字)

AI 输出:

{
  "sentiment": "negative",
  "keywords": ["奶茶太甜", "珍珠不Q"],
  "reason": "奶茶甜度超标,珍珠口感不佳,用户体验差"
}
例子 2:输出 Markdown 表格
你是一个数据分析师,帮我整理以下销售数据成Markdown表格:
数据:
- 2024年1月:10000元
- 2024年2月:12000元
- 2024年3月:15000元
请以Markdown表格输出,包含列:月份、销售额、同比增长率(假设去年同期每月都是8000元)

AI 输出:

月份 销售额 同比增长率
2024 年 1 月 10000 元 25%
2024 年 2 月 12000 元 50%
2024 年 3 月 15000 元 87.5%

4.3 进阶技巧:用 “格式模板” 强制对齐

如果 AI 输出的格式不符合要求,你可以给它更严格的格式模板

请严格按照以下JSON模板输出,不要添加任何额外内容:
{
  "sentiment": "",
  "keywords": [],
  "reason": ""
}
评论:“这家店的奶茶太甜了,珍珠也不Q,再也不来了!”

这样 AI 就会严格按照模板输出,不会添加多余的解释。


五、案例实操:让 AI 当电商客服,处理退货请求

现在我们用一个真实的场景,把上面的技巧全部用上:让 AI 当电商售后客服,处理用户的退货请求,输出结构化的处理步骤

需求分析

用户的退货请求:“我买的这件衣服尺码小了,穿不上,想退货,你们的退货流程是什么?”我们需要 AI 输出:

  1. 符合客服话术的回复;
  2. 结构化的处理步骤;
  3. 包含用户需要的退货地址、联系方式等信息。

步骤 1:写基础 Prompt

你是某电商平台的售后客服,用户说“我买的这件衣服尺码小了,穿不上,想退货,你们的退货流程是什么?”,请你回复用户。

AI 输出(大段文字,不够结构化):

非常抱歉给您带来了不好的体验!如果衣服尺码小了,您可以按照以下流程退货:首先请您检查衣服是否完好无损,吊牌是否齐全;然后请您在订单页点击 “申请退货”,选择 “尺码不符” 的原因,上传衣服的照片;最后我们审核通过后,会给您发送退货地址,您将衣服寄回后,我们会在 3 个工作日内退款给您。如果有任何问题,请您联系我们的客服电话:400-123-4567。

步骤 2:优化 Prompt(加入角色、格式、具体要求)

你是某电商平台的售后客服,昵称是“小蜜”,需要处理用户的退货请求,要求:
1. 首先表达歉意,语气亲切,用“亲”称呼用户;
2. 然后分点说明退货流程,每点不超过20字;
3. 最后提供退货地址和客服电话;
4. 请以JSON格式输出,包含字段:apology(歉意话术)、return_process(退货流程数组)、contact_info(联系方式对象,包含address和phone)。

用户的退货请求:“我买的这件衣服尺码小了,穿不上,想退货,你们的退货流程是什么?”

AI 输出(结构化,符合要求):

{
  "apology": "亲,非常抱歉给您带来了不好的体验!",
  "return_process": [
    "检查衣服是否完好、吊牌齐全",
    "订单页点击申请退货,选尺码不符",
    "上传衣服照片,等待审核通过",
    "收到退货地址后寄回衣服",
    "审核通过后3工作日内退款"
  ],
  "contact_info": {
    "address": "北京市朝阳区建国路88号电商售后部",
    "phone": "400-123-4567"
  }
}

步骤 3:进一步优化(加入思维链,让 AI 更贴心)

你是某电商平台的售后客服,昵称是“小蜜”,需要处理用户的退货请求,要求:
1. 首先表达歉意,语气亲切,用“亲”称呼用户;
2. 然后分点说明退货流程,每点不超过20字;
3. 主动提醒用户“退货时请保留快递单号”;
4. 最后提供退货地址和客服电话;
5. 请以JSON格式输出,包含字段:apology、return_process、tips、contact_info。

用户的退货请求:“我买的这件衣服尺码小了,穿不上,想退货,你们的退货流程是什么?”

AI 输出(更贴心,符合用户需求):

{
  "apology": "亲,非常抱歉衣服尺码不合适给您带来困扰!",
  "return_process": [
    "检查衣服完好、吊牌未拆",
    "订单页申请退货,选尺码不符",
    "上传衣服照片,等待审核",
    "收到地址后寄回衣服",
    "审核通过后3工作日退款"
  ],
  "tips": "亲,退货时请务必保留快递单号哦,方便我们追踪物流!",
  "contact_info": {
    "address": "北京市朝阳区建国路88号电商售后部",
    "phone": "400-123-4567"
  }
}

六、小白避坑指南:90% 的人都会踩的 3 个坑

坑 1:用 “模糊的词” 代替 “具体的词”

比如用 “写一篇长文章” 代替 “写一篇 1000 字的文章”,用 “写一篇好文章” 代替 “写一篇语言生动、有案例的科普文章”—— 大模型不知道 “长” 和 “好” 的标准是什么,所以输出的内容会不符合你的预期。

坑 2:让 AI “同时做多个任务”

比如 “帮我写一篇关于减肥的文章,还要帮我做一个减肥计划,还要帮我分析减肥的误区”—— 大模型擅长单任务处理,同时做多个任务会导致每个任务的质量都下降,最好分开写 Prompt。

坑 3:不检查 AI 的输出

大模型有时候会 “胡说八道”(比如编造不存在的事实、错误的公式),所以你需要检查 AI 的输出—— 比如让 AI 写代码时,要运行一下看看有没有 bug;让 AI 写科普文章时,要查一下资料看看有没有错误。


七、结尾:提示词工程是小白入门 AI 的最快方式

你不需要懂复杂的数学公式,不需要训练大模型,只需要学会写 “精准的提示词”,就能用大模型解决 80% 的日常问题:

  • 写文案、写代码、写报告;
  • 分析数据、整理表格、做 PPT;
  • 当客服、当老师、当翻译。

提示词工程不是 “玄学”,它是有方法的 —— 只要你掌握了 “指令具体、给示例、设角色、结构化输出” 这几个核心技巧,多练几次,就能从 “AI 小白” 变成 “AI 指令大师”。

现在就打开 ChatGPT,试试上面的案例,你会发现 AI 原来这么好用!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐