大模型应用避坑指南：全面解析幻觉问题与解决方案

大模型幻觉问题指模型生成与事实不符的信息，成因包括数据噪声、知识稀疏和验证能力缺失等，可分为事实冲突、无中生有、指令误解和逻辑错误四类。解决方案有检索增强生成(RAG)和后验幻觉检测，后者分为白盒（基于模型内部状态）和黑盒（基于外部知识/工具）方案。企业需建立多层次识别机制，确保模型输出可靠性，防范幻觉带来的实际风险。

Python程序员罗宾

959人浏览 · 2025-09-11 19:38:23

Python程序员罗宾 · 2025-09-11 19:38:23 发布

前排提示，文末有大模型AGI-CSDN独家资料包哦！

前言

随着大模型（Large Language Models，以下简称 LLM）迅猛发展的浪潮中，幻觉（Hallucination）问题逐渐成为业界和学术界关注的焦点。所谓模型幻觉，指的是模型在生成内容时产生与事实不符、虚构或误导性的信息。比如，当你询问“世界上最长的河流是哪条？”模型可能一本正经地回答：“是亚马逊河，位于非洲”，而实际上亚马逊河在南美洲，同时也并不是最长的河流。又或者，当你让 LLM 介绍某个研究方向的最新进展时，它能说得有理有据并列出参考文献标题作者等细节信息，但等你检索时却发现那些文献根本不存在。这些都是幻觉问题在现实中的典型表现。

随着 LLM 被广泛应用于搜索、问答、医疗、金融等关键领域，这种“一本正经胡说八道”的回答不仅影响用户体验，也可能带来严重的实际风险。因此，如何识别、抑制甚至消除幻觉，已经成为亟待解决的重要课题。

幻觉成因与分类

幻觉成因

大模型的本质依然是一个语言模型，它通过计算句子概率建模自然语言概率分布。通过对大量语料的学习与分析，它能够按顺序预测下一个特定 token 的概率。LLM 的主要功能是根据输入文本生成连贯且上下文恰当的回复，本身可能并不擅长真正理解或传递事实信息。本文总结了多篇文献对于模型幻觉成因的分析，根据 LLM 从预训练到推理部署的不同阶段，将幻觉的来源进行如下划分[1,2]：

预训练（Pre-training）：

训练数据噪声与偏差：LLM 依赖于海量数据进行预训练，但这些数据中不可避免地包含了错误、虚假、过时或者重复的信息，导致模型知识有偏差；
领域专业知识稀疏：预训练数据中缺乏特定领域任务的专业知识，导致模型在这些领域的推理能力较差，容易生成虚假或错误的内容；
事实性验证能力缺失：预训练的目标是通过最大化下一个词的概率来建模自然语言概率分布，这种优化目标旨在提升语言生成的流畅性而非准确性，因此模型在生成内容时更注重文本的连贯性，可能并不擅长真正理解或传递事实信息。

有监督微调（ SFT ）：在这一阶段，模型会根据人工标注的训练数据进行调整。标注错误或不一致以及过拟合会导致模型对于错误知识过于自信。

强化学习与人类反馈（ RLHF ）：对齐阶段可能存在误导与失配的问题，由于奖励设计不完善，模型会为了“迎合”预定的目标而忽视生成内容的正确性和真实性。

模型推理（Inference）：目前，LLM 通常是token by token地生成内容，这种策略使得它无法修正早期的错误，导致滚雪球式的幻觉扩大；此外，基于随机采样的生成策略在引入多样性的同时也增加了幻觉风险。

幻觉分类

目前，研究学者们按照输出内容错误的类型把 LLM 幻觉分为以下四大类[1]：

事实冲突：生成内容与客观世界知识或者给定的参照知识相互冲突
无中生有：生成内容是虚构的，无法从世界知识或者给定的参照知识得到验证和支撑
指令误解：对用户指令理解错误，生成内容偏离指令主题
逻辑错误：推理过程存在逻辑错误或漏洞

Type	Input Prompt	LLM Response
事实冲突	世界上最长的河流是哪条？	位于非洲的亚马逊河是世界上最长的河流。
无中生有	房源信息：该房源位于江汉区市民中心，为 86 平的 2 室 1 厅户型，挂牌价为 169 万元。房源优势在于休闲相对方便、就医相对方便、楼层相对合适。根据以上信息回答：这个房源是几楼的？	该房源位于 4 楼，共 7 层。
指令误解	将下文翻译成英语：“法国的首都是哪里？”	法国的首都是巴黎。
逻辑错误	逐步解方程 2x + 3 = 11。	步骤 1：两边减去 3 得到：2x = 8。步骤 2：两边除以 2 得到：x = 3。所以等式的结果是 x = 3。

幻觉解决方案

从前文的分析可以看到，导致幻觉问题的成因贯穿了 LLM 从预训练到推理的整个生命周期，对应的缓解方案也可以从不同的阶段入手，例如在预训练阶段加强数据去重与清洗，在有监督微调阶段引入部分“诚实导向”的样本，引导 LLM 识别无法回答的问题并表达自己的能力局限性。考虑到对 LLM 重新训练或微调的成本过高，目前大部分的幻觉缓解方案聚焦于推理阶段，以下主要对该阶段的方案进行展开介绍。

检索增强生成

大模型通常存在知识边界，单纯依赖其训练期间学习到的“参数记忆”可能导致模型在面对最新或特定领域的信息时产生幻觉。检索增强生成（RAG）通过在生成过程中引入外部知识源（如数据库、文档或网页），使模型能够访问和利用最新的、相关的信息，从而提高回答的准确性[3,4]。例如，企业可以将其内部政策文档作为 RAG 的知识库，使得 AI 在回答相关问题时能够引用这些文档，提供更准确的回答。

通俗来说，RAG 技术将 LLM 问答从“闭卷考试”更改为“开卷考试”，模型的角色从知识源转变为对检索知识的分析者，只需从中找到相应答案并进行总结以简洁地回答用户的问题。这种方法显著提高了回答的准确性和时效性，尤其适用于需要最新信息或特定领域知识的场景。

后验幻觉检测

尽管 RAG 在缓解幻觉方面具有显著优势，但它并非万能，幻觉问题仍可能发生。如果检索到的信息存在冲突、与查询无关或者部分信息缺失，都可能会导致模型生成不准确的回答。即使引入了外部知识，模型仍可能在理解或生成过程中产生幻觉，特别是在面对复杂或模糊的问题时。因此后验幻觉检测机制也不可或缺。

白盒方案

Lookback Ratio: 基于上下文与生成内容注意力分配比例的白盒检测方案[7]

基于模型不确定性：通过衡量 LLM 生成内容的不确定性来评估幻觉风险。

为了聚焦关键信息，可以先利用 NER 模型或关键词提取模型提取生成内容中的关键概念，然后用 LLM 在这些关键概念每个 token 上的概率来评估幻觉风险，生成的概率越小则幻觉风险越大[5]。
文献[6]基于生成文本中每个 Token 的概率提出了 4 个指标来评估幻觉风险，包括最小 Token 概率、平均 Token 概率、最大 Token 概率偏差、最小 Token 概率差距。

基于模型内部隐藏状态：LLM 在生成内容时，其内部隐藏状态能够反映生成内容的准确性。

有研究者认为在 RAG 场景下幻觉的发生与模型在生成过程中对上下文与新生成内容的注意力分配比例相关[7]。具体而言，如果模型在生成过程中更多地关注自己生成的内容而忽视上下文，则产生幻觉的风险就更大。因此本文通过引入 lookback ratio 这一特征捕捉模型在每个生成步骤中对上下文和新生成内容的注意力分布情况，并以此作为是否产生幻觉的依据。
文献[8]提出 LLM 推理时内部隐藏状态的上下文激活锐度能够反映生成内容的准确性，正确生成的内容往往伴随着较低的上下文熵值（更为锐利的激活模式），而错误的生成内容则具有较高的上下文熵值（模糊的激活模式）。
此外，也有研究利用 LLM 的内部嵌入表示来度量生成内容的语义一致性，通过计算多个生成内容的嵌入表示之间的协方差矩阵的特征值来量化它们的语义差异[9]。特征值越大，表明生成内容的语义越分散，幻觉风险越高。

黑盒方案

基于外部知识/工具增强的黑盒检测方案[14]

基于模型不确定性：

考虑到在黑盒调用 LLM 的场景下无法获得输出 token 的概率，文献[10]提出了一种基于简单采样的幻觉检测方法，主要基于以下假设：当 LLM 对于生成内容不自信或者在捏造事实时，它对同一问题的多个回答有较大概率会出现逻辑上不一致。

基于规则：

采用 ROUGE、BLEU 等多种统计学指标，通过衡量输出结果和 RAG 中源信息的重叠度来评估幻觉风险[5]。
基于命名实体识别的规则进行幻觉检测，如果模型生成的命名实体未出现在知识源中，那么该模型就存在幻觉风险[11]。

基于知识/工具增强：利用外部知识库或工具对 LLM 生成内容进行验证。

文献[12,13]提出了一种基于外部知识的幻觉检测方法，主要利用智能体完成以下步骤：将模型回答分解为一组独立的原子陈述；使用搜索引擎或知识库检索每一条陈述对应的证据；根据检索证据评估每个陈述是否正确。
在此基础上，有研究者集成了搜索引擎、代码执行器、计算器等多个外部工具对模型生成内容进行验证，可以应用于问答、代码生成、数学问题求解等多种任务[14]。

基于检测模型：利用领域专家模型进行幻觉风险检测。

基于自然语言推理任务中的蕴含概念，文献[15]提出了一种叫做 AlignScore 的指标，用于评估任意一对文本的信息对齐程度。论文收集整合不同语言任务下的数据构建成了一个统一的对齐训练语料库，并以此训练了相应的专家模型。在 RAG 场景下，模型生成内容与 RAG 知识的对齐程度能够有效地反应幻觉风险大小。
由于现有的幻觉检测方法缺少对于结果的可解释性以及对源知识的筛选，有研究者训练了一个专家模型作为幻觉 critique 模型，通过选择相关证据并提供详细的解释来增强幻觉检测能力[16]。

火山引擎的实践

基于上述幻觉检测和环节方案，火山引擎云安全团队聚焦 RAG 场景，构建了一种模型幻觉风险检测方案。该检测方案由文本解析、信息提取、风险检测等关键模块构成，主要通过比对 RAG 知识与模型回答，识别模型回答中与知识冲突或者缺乏依据的风险内容。目前该方案已在客服、广告等多个业务场景上取得了较好的落地效果。

文本解析：将模型回答解析为独立陈述。
信息提取：聚焦模型回答中的关键信息。
风险检测：根据上下文信息或 RAG 知识，识别模型回答中的风险内容。

总结

在 LLM 被大规模应用于生产环境的当下，幻觉问题所带来的潜在危害已经从学术挑战转变为现实风险。一方面，LLM 生成的看似权威但实际虚假的信息，可能会误导用户做出错误决策并造成实际危害，尤其是在法律、医疗、金融等领域；另一方面，LLM 虚假或错误的回答也会给企业带来法律纠纷、品牌形象受损、合规性问题等风险。目前，“清朗·整治 AI 技术滥用”专项行动明确指出 AI 产品要严格管控“AI 幻觉”问题。因此，企业须高度重视大模型幻觉问题的防范工作，将其纳入模型部署与应用的全生命周期管理中，从数据源把控、模型选择、幻觉风险检测等多方面出发，建立多层次的幻觉识别与纠偏机制，确保模型输出的可靠性和可控性。

读者福利：倘若大家对大模型感兴趣，那么这套大模型学习资料一定对你有用。

针对0基础小白：