我们已经习惯利用大语言模型处理海量信息,依靠检索增强生成(RAG)等技术来获取基于上下文的连贯回答。

但模型常常会生成与给定上下文不一致或完全无关的内容。这种现象被称为忠实度幻觉。对于追求精准的实际应用来说,这是致命的。

如何检测这些幻觉至关重要。

目前的主流做法是利用GPT-4等强大的通用模型进行二分类判断。

这种方法虽然有效,但成本高昂且效率低下,难以在大规模实际场景中部署。

另一条路是开发专门的小型检测模型。

MiniCheck等模型通过合成数据取得了不错的成绩,但它们大多像是一个黑盒子。它们只告诉你这句话是错的,却无法解释为什么错。

信任建立在理解之上。如果一个检测器无法解释它的判断依据,它的可信度就大打折扣。

现有的研究还面临跨任务泛化能力差的问题。针对摘要任务训练的模型,换到问答任务上往往就表现不佳。

高质量训练数据的极度匮乏也是制约行业发展的瓶颈。

清华大学、深言科技、复旦大学等机构的研究者们推出了FaithLens。

图片

FaithLens是一个既经济高效又能提供详尽解释的幻觉检测模型。

它能判断大模型生成的声明是否忠实于原文,还能生成一段清晰的解释,告诉用户判决的理由。

在12项不同的任务中表现出色,以80亿参数的体量击败了包括GPT-4和o3在内的顶尖模型。

图片

给定支撑文档和生成的声明,如果一个普通读者认为根据文档该声明为真,则为忠实;反之若矛盾或无法验证,则为幻觉。

而且,FaithLens在输出二分类标签的同时,会生成一段文本解释来支撑它的判断。

用高质量数据构建模型冷启动

训练一个既懂判断又能解释的模型,首先需要解决数据问题。

现有的开源数据集大多只有标签,没有解释。FaithLens团队利用更强大的推理模型来合成数据。

他们使用了DeepSeek-V3.2-Think这样的先进推理模型。通过精心设计的提示词,让大模型阅读文档和声明,然后输出它的思维链(CoT)、最终的解释以及预测标签。

这样就得到了大量带有详细推理过程的合成数据。

大模型生成数据后,又引入一套严格的数据过滤机制。这套机制包含三个维度:标签正确性、解释质量和数据多样性。

对于每一个合成样本,系统会将其预测标签与原始数据集中的真实标签进行比对。如果两者不一致,说明大模型在这个样本上判断失误。这样的样本会被直接丢弃。

系统需要判断生成的解释是否真的有价值。研究者设计了一个验证实验:将文档、声明和生成的解释一起交给一个新手模型(例如未微调的Llama-3)。

如果这段解释能帮助新手模型正确预测出标签,说明这段解释包含了有效的信息,逻辑清晰且具有说服力。

反之,如果加上解释后新手模型依然答错,或者解释本身让模型更加困惑,那么这段解释就是低质量的,需要被过滤掉。

如果训练数据集中某种类型的幻觉太多,模型就会产生偏见,无法处理复杂的未知情况。FaithLens采用了基于聚类的筛选方法。系统将文档和声明映射为向量,利用K-Medoids算法将语义相近的数据聚类。

在每个聚类中,系统会选出最具代表性的样本构建一个探测集。

系统会计算探测集中的样本在加入待选样本作为上下文后的困惑度变化。

如果一个样本能降低探测集中大多数数据的困惑度,说明它提供了通用的、有价值的信息,有助于模型学习这类数据的共性。这确保了保留下来的数据在语义和逻辑上具有足够的多样性。

经过这三层严苛筛选,研究者利用这些高质量数据对模型进行监督微调(SFT)。

图片

这被称为冷启动阶段。通过这个阶段,模型初步掌握了检测幻觉并生成解释的能力。

强化学习注入多维奖励机制

监督微调只是让模型学会了模仿。

要让模型真正理解什么是好的解释,并在复杂场景下保持稳定,还需要进一步的优化。

FaithLens引入了基于规则的强化学习训练阶段。

研究者选择了GRPO(Group Relative Policy Optimization)算法。这种算法不需要额外的奖励模型,计算效率更高。它通过让模型对同一个问题生成多组回答,比较这些回答的相对优劣来更新策略。

核心在于奖励函数的设计。FaithLens设计了一套复合奖励系统,同时兼顾预测的准确性和解释的质量。

预测正确性奖励是最基础的指标。如果模型的预测标签与真实标签一致,就给予正向奖励。但这还不够,模型必须学会如何写判词。

解释质量奖励是FaithLens的一大创新。

直接用规则去评价一段自由文本的质量是非常困难的。

研究者再次利用了新手模型验证的思想。

他们将模型生成的解释作为辅助信息输入给一个能力较弱的新手模型。

如果这段解释能让新手模型在原本可能答错的情况下答对,或者增强了新手模型答对的信心,那么系统就认为这是一个高质量的解释。

这种隐式评估方法非常巧妙。它不直接纠结于语法或用词,而是关注解释的实际效用。一个好的解释,应该能让不懂的人看懂,能让疑惑的人开悟。

通过将解释的效用量化为奖励信号,模型在训练过程中逐渐学会了生成逻辑严密、信息量大且易于理解的解释文本。

格式奖励则是为了规范输出。

系统要求模型按照特定的标签格式输出解释和预测。这在实际工程应用中保证了模型输出的结构化和易解析性。

最终的奖励是这三者的加权和。

模型在不断的尝试和反馈中,学会在保证预测准确的同时,输出高质量的解释。

最终,FaithLens在保持小参数规模的同时,具备了比肩甚至超越超大模型的逻辑分析能力。

全方位实验验证卓越性能

FaithLens在LLM-AggreFact和HoVer这两个权威基准测试集上进行了全面评估。

这两个数据集涵盖了摘要、对话、RAG以及多跳推理等12种不同的任务类型。

图片

仅有80亿参数的FaithLens在综合性能上击败了所有专门的检测模型,同时也超越了GPT-4、Claude-3.7-Sonnet等目前最先进的通用大模型。

在HoVer这种需要多跳推理的复杂任务上,FaithLens的优势尤为明显。

准确率高,标准差极低,说明模型在不同任务间的表现非常稳定,没有明显的短板。相比之下,其他模型往往在某些任务上表现出色,在另一些任务上则一塌糊涂。

研究者使用GPT-4.1作为裁判,从可读性、有用性和信息量三个维度评价FaithLens生成的解释。

图片

结果显示,FaithLens生成的解释质量极高,在这些维度上评分甚至超过了GPT-4.1本身。

这得益于训练过程中引入的解释质量奖励,迫使模型说对,还要说得好。

在推理成本上,FaithLens比GPT-4o便宜数十倍,每GPU小时的成本极低。

与其他大模型相比,它在保持高性能的同时,实现了极致的性价比。

图片

数据效率方面,FaithLens仅使用了28K条经过严格筛选的公共数据。

相比之下,其他模型动辄使用数十万条数据,或者依赖私有数据。

图片

消融实验进一步证实了各个组件的贡献。

如果去掉数据过滤,模型性能显著下降。如果去掉解释质量奖励,生成的解释虽然看起来像那么回事,但在帮助人类或其他模型理解问题上大打折扣。每一个设计环节都在最终的性能提升中扮演了不可或缺的角色。

图片

FaithLens将大模型可解释性从一个可选项变成了标配。

通过对比模型生成的内容和实际的知识库或事实,检测出哪些部分是错误的。比如,模型可能会生成不存在的引用、虚构的事件或不符合已知事实的答案。

将检测结果反馈给模型,帮助进一步优化生成的内容,确保模型提供的信息更准确、可靠。

在一些需要高准确性或专业知识的场景(例如医疗、法律、科研等领域),FaithLens这样的幻觉检测模型尤为重要,因为错误的生成信息可能导致严重的后果。

通过引入幻觉检测机制,用户可以更有信心地依赖大模型生成的结果,减少对错误内容的依赖和误解。

在这个日益依赖AI决策的世界里,精准的解释是信任的基石,在大模型生成内容的同时,确保尽量减少虚假的、不允许的或误导性的输出,增强模型的实用性和安全性。

FaithLens正在为AI铺设这条信任之路。

参考资料:

https://arxiv.org/pdf/2512.20182

https://github.com/S1s-Z/FaithLens

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐