别再让LLM“胡说八道”！一句话让AI创造力原地起飞，告别模式坍塌！

你平时用 LLM 写东西、聊方案时，有没有遇到过这种情况：让 LLM 列举用户留存优化策略，总优先输出推送提醒、积分体系，很少提到场景化召回、老用户专属服务升级。让 LLM 列 3 个 APP 拉新功能方向，结果 3 个都围绕领红包。

小天才学习机打游戏

958人浏览 · 2025-11-18 14:39:08

小天才学习机打游戏 · 2025-11-18 14:39:08 发布

你平时用 LLM 写东西、聊方案时，有没有遇到过这种情况：
让 LLM 列举用户留存优化策略，总优先输出推送提醒、积分体系，很少提到场景化召回、老用户专属服务升级。
让 LLM 列 3 个 APP 拉新功能方向，结果 3 个都围绕领红包。

这种现象学术上叫做模式坍塌（Mode Collapse），也就是 LLM 经过对齐训练（比如 RLHF）后，输出会 “窄化”，只偏爱少数 “常规答案”，丢失多样性。

它对 AI 产品的影响：

•创意类产品废了：比如 AI 写作工具、设计灵感平台，用户要的是 “多样灵感”，结果 AI 输出千篇一律，用户会流失；

•模拟类产品假了：比如客服机器人、社会行为模拟，AI 行为不像真人，体验差；

•教育 / 工具类产品不全了：比如题库生成工具，只生成常见题型；开放式问答工具漏了很多小众但有效的答案。

《VERBALIZED SAMPLING: HOW TO MITIGATE MODE COLLAPSE AND UNLOCK LLM DIVERSITY》这篇论文就深入挖掘了模式坍塌现象的根因，并设计了 Verbalized Sampling（言语化抽样）策略解决该问题。不用训练模型，只要在 prompt 中要求生成指定数量的响应及概率即可，例如：

生成[5]个响应及其相应的概率。

对每个查询，生成[5]个可能响应，每个包含响应文本和概率，请从[完整分布/分布的尾部]中随机抽样，确保每个回复的概率[小于0.10]。

下面具体聊聊原理、用法、优势、应用场景、落地注意事项。

一、模式坍塌的根因

之前行业里总觉得模式坍塌是算法问题（比如奖励模型不好、训练时正则化太严），但这篇论文指出了更根本的原因：数据里的典型性偏差。

什么是典型性偏差？
简单说：人类标注者在给 AI 标偏好数据时，会下意识选 “熟悉、好理解、常规” 的文本。

对 AI 的影响：
AI 训练时会 “放大” 这种偏差，对齐训练（如 RLHF）会让 AI 更偏爱标注里的 “常规答案”，最终导致输出越来越窄，形成模式坍塌。论文用公式证明了：哪怕算法完美，只要数据有这种偏差，AI 还是会塌。

二、解决方案

既然问题根源在 “AI 只输出单一常规答案”，论文提出了一个零训练成本、全模型适配的方案：让 AI 输出 “带概率的多个响应”，而不是单个答案。

VS 的核心逻辑：不同提示引导 AI “塌向不同模式”。

1.常规提示（实例级）。写 1 个咖啡笑话 → 只输出单一常规答案 → 模式坍塌严重。

2.列表提示（列表级）。写 5 个咖啡笑话 → 5 个笑话仍围绕相似梗 → 坍塌到均匀分布的小列表（多样性有限）。

3.VS 提示（分布级）。写 5 个咖啡笑话 + 每个的概率 → 覆盖多样梗 → 塌向预训练时的完整多样分布。

那么直接调高温度增加创造性行吗？
温度（Temperature）是解码策略里的 “随机度开关”，温度越高，AI 输出越随机。但产品落地时，这种方式的质量失控、不可控、不稳定会让用户体验崩掉。
论文实验也验证：温度调高后，多样性提升 1.2 倍，但质量评分下降 15%-20%；而 VS 能提升 1.6-2.1 倍多样性，质量还能保持甚至提升，比如 VS-CoT 质量比常规提示高 25%。

核心优势

•无训练成本：无需微调或修改模型参数，仅通过提示实现。

•全模型适配：适用于闭源模型和开源模型。

•可调节多样性：通过设置”概率阈值”控制输出多样性，阈值越低多样性越高。（想要更小众的答案？就加 “概率 < 0.01”；想要稳妥的答案？就用 “概率 > 0.05”）

三、VS 变体

VS-Standard：单轮生成带概率的响应列表。
VS-CoT：先 “逐步推理” 再生成带概率的响应。
VS-Multi：多轮生成，每轮补充新的带概率响应。

四、具体应用场景

论文做了 4 类核心任务的实验。

创意类产品：多样性提升 1.6-2.1 倍，还不牺牲质量

场景：AI 写作工具、设计灵感平台（如生成故事、诗歌、笑话）；
结果：用 VS 后，AI 输出的语义多样性提升，比如写熊的故事，VS 能生成 “熊当税务师”“熊从星座下凡”“熊在玻璃森林迷路”，而常规提示只会写 “熊在森林找浆果”；
额外惊喜：VS 的 “CoT 变体” 不仅多样，质量还比常规提示高 25%（比如诗歌的 “意象丰富度” 评分更高）。

对话类产品：模拟人类行为更真实
场景：客服机器人、社会行为模拟（如公益捐款对话）；
结果：用 VS 模拟 “劝人捐款” 时，AI 能输出 “我现在没钱，只能捐 10 分”“还是不捐了，我日常生活都不够” 等人类化行为，而常规提示只会输出 “我愿意捐 2 美元”；
关键指标：模拟的捐款金额分布和人类分布的 “差距（KL 散度）” 从 0.51 降到 0.11，接近真人水平。

知识类产品：覆盖更多答案，不遗漏 “小众知识”
场景：教育题库（如 “列举数学公式”）、开放式问答工具（如 “列举环保方法”）；
结果：让 AI “列举美国州名”，VS 生成的答案覆盖了 71% 的真实州名（常规提示只覆盖 51%），且很少遗漏小州；
质量保障：准确率仍保持 96% 以上，不会为了多样而输出错误答案（比如不会把 “加拿大省份” 当美国州名）。

数据生成类产品：用 VS 生成的数据，能让模型学得更好
场景：教育产品（生成多样习题）、AI 微调（生成训练数据）；
结果：用 VS 生成 1000 道数学题，再用这些题微调 Qwen 模型，数学任务准确率从 30.6% 提升到 37.5%（比常规生成的数据高 7 个百分点），相当于 “用更多样的数据，喂出更强的模型”。

五、落地注意事项

计算成本：多输出会消耗更多 token。
模型依赖：小模型效果差，中大型模型才管用。低能力模型（如GPT-4.1-Mini、Gemini-2.5-Flash）提升只有 1.2 倍，还可能生成错误概率。GPT-4.1、Claude-4 这类大模型用 VS 后，多样性提升 2 倍。

六、总结

对产品经理来说，VS 的真正价值是：用最低的研发成本，实现了用户最需要的 “有用的多样性”，同时避免了 “简单方案” 的质量坑和体验坑，这才是落地时最关键的优势。

如何高效转型Al大模型领域？

作为一名在一线互联网行业奋斗多年的老兵，我深知持续学习和进步的重要性，尤其是在复杂且深入的Al大模型开发领域。为什么精准学习如此关键？

系统的技术路线图：帮助你从入门到精通，明确所需掌握的知识点。
高效有序的学习路径：避免无效学习，节省时间，提升效率。
完整的知识体系：建立系统的知识框架，为职业发展打下坚实基础。

AI大模型从业者的核心竞争力

持续学习能力：Al技术日新月异，保持学习是关键。
跨领域思维：Al大模型需要结合业务场景，具备跨领域思考能力的从业者更受欢迎。
解决问题的能力：AI大模型的应用需要解决实际问题，你的编程经验将大放异彩。

以前总有人问我说：老师能不能帮我预测预测将来的风口在哪里？

现在没什么可说了，一定是Al；我们国家已经提出来：算力即国力！

未来已来，大模型在未来必然走向人类的生活中，无论你是前端，后端还是数据分析，都可以在这个领域上来，我还是那句话，在大语言AI模型时代，只要你有想法，你就有结果！只要你愿意去学习，你就能卷动的过别人！

现在，你需要的只是一份清晰的转型计划和一群志同道合的伙伴。作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

yolov8通过百度飞桨AIstudio平台搭建

百度飞桨AIstudio平台搭建的环境如下：但是需要参照教程自己重新搭建，因为它的环境公开的只能1GB文件，但超过了1GB，只能筛选，所以不全。具体操作步骤，包括免费使用百度飞桨AIstudio平台的教程也是参考如下博客。

2048 AI社区

AI导读AI论文: CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced

为解决现有CAD模型生成方法（如依赖 latent vectors、点云，数据获取难、存储成本高）及传统多模态大语言模型（MLLMs，如GPT-4）3D空间推理能力弱的问题，研究团队提出CAD-GPT——一种基于的空间推理增强型多模态LLM，可通过单张图像或文本描述生成CAD建模序列；其核心是3D建模空间定位机制，将3D空间位置、3D草图平面旋转角映射到1D语言特征空间，并离散2D草图坐标，同时引