【干货】大模型输出机制揭秘：采样策略与结构化输出技巧！

本文详细解析了大模型输出环节的采样策略，包括温度、top-k和top-p三种方法如何影响输出的随机性与创造性。同时探讨了结构化输出的实现途径，如提示词设计、后置处理和受限采样。文章最后指出，LLM的创造力来源于概率性，理解并管理这种不确定性是有效使用大模型的关键，而非简单地将其视为缺陷。

大耳朵爱学习

1143人浏览 · 2025-12-07 08:30:00

大耳朵爱学习 · 2025-12-07 08:30:00 发布

简介

通过前面的文章，我们了解了输入阶段的嵌入，以及 Transformer 模型的处理。从整体来看，输出环节还没有“打开”，本文将一探究竟。

借用 Chip Huyen 的著作《AI Engineering》[1]中的一张配图：

从矩阵运算的角度来看，最终输出的是一个长度为字典大小的向量，经过 softmax 激活函数得到就是每个token的概率分布。

如何选择 token 呢？这蕴含着确定性与随机性的权衡：选择概率最大的 token 会使输出更稳定、更可预测，而采用随机采样则能提升多样性与创造性。这一权衡最终反映在模型的采样策略上。

一、采样策略

总的来说有温度、top-k 和 top-p 三种采样策略。

1.1 温度

“温度”这个名字比较传神，温度越高越活跃，也就是更有创造性。

我们就以 DeepSeek 体验一下温度的作用，发送下述提示词，控制温度的值，观察输出：

{        "model": "deepseek-chat",        "messages": [          {"role": "system", "content": "你是一位诗人，我出上句，你来对下句"},          {"role": "user", "content": "天若有情天亦老，"}        ],        "temperature": 0,        "stream": false}

当 temperature 设置为 0 时，输出是固定的：

• 月如无恨月长圆

当 temperature 设置为 2 时，输出比较随机：

• 月如无恨月长圆
• 人间道义尽沧桑
• 情深偏易断肠多
• 月如无恨月长圆。踏破璀璨星空，为寻前世因缘。清风拂柳千年慢，我倾战意翻云，乾坤内，与谁来争。凝望明月高悬，此意气飘然，今夜群星皆不醒，我本肆意剑出行！啊举杯与苍天似深情，放声狂笑称心情。剑指长天向侠行！尽我此生豪马踏名城！
• 酒逢知己醉千杯
• 水能无怨水当干，然未曾几测高深。
• 红绡先冷迎风眠
• …

效果与直观理解一致，其背后的原理也很简单，作用点就在 softmax 的计算上。

token 的 logit 除了一下温度值，实现的效果就是越大，之间的差值就越小，也就是提高了其他 token 被选中的概率。

1.2 top-k

top-k 采样的动机是减少 softmax 激活函数的计算量，对 logits 进行排序选择数值最大的 k 个，然后对这个 k 个，不是整个字典，进行 softmax 计算。

该采样策略使用的比较少，例如 DeepSeek 就没有提供相关的参数，原因是 k 是绝对的数，需要根据输出的大小进行调整。

1.3 top-p

top-p 采样策略是当前比较流行的策略，它并没有降低计算量，还是得全量计算 softmax 激活函数，然后对概率进行排序，选择累积概率大于 p 的 tokens 作为备选。

我们还是以上面的示例，控制 top_p 的值，观察输出：

当 top_p 设置为 0.01 时，输出是固定的：

• 月如无恨月长圆

当 top_p 设置为 1 时，输出也很固定：

• 月如无恨月长圆

与预期不太相符，笔者猜测可能的原因是最相关的 token 概率值遥遥领先，此时可以通过设置 logprobs 来验证一下：

{    "token": "月",    "logprob": -0.031558793,    "bytes": [        230,        156,        136    ],    "top_logprobs": [        {            "token": "月",            "logprob": -0.031558793,            "bytes": [                230,                156,                136            ]        },        {            "token": "人间",            "logprob": -3.471668,            "bytes": [                228,                186,                186,                233,                151,                180            ]        },        {            "token": "人",            "logprob": -14.080235,            "bytes": [                228,                186,                186            ]        }    ]}

返回的这个是对数概率，换算一下，“月”的概率是96.89%，“人间”的概率是3.1%，“月”的概率确实遥遥领先。