论文标题:SELF-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection
作者:Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, Hannaneh Hajishirzi
机构:华盛顿大学、艾伦人工智能研究所、IBM研究院
原文链接:https://arxiv.org/abs/2310.11511

摘要

尽管大语言模型(LLM)能力显著,但由于其仅依赖内部参数化知识,仍常产生事实性错误。传统的检索增强生成方法通过检索相关知识来缓解这一问题,但其固定且盲目的检索机制可能引入无关信息,损害模型的灵活性,且缺乏对生成内容的自我评估。

本文提出了一种名为自我反思检索增强生成(SELF-RAG)的新框架。该框架通过训练一个统一的模型,使其能够自适应地按需检索,并在生成过程中使用一种特殊的反思令牌来对检索到的内容及自身生成的内容进行批判性评估。这使得模型在推理阶段具有可控性,能够根据不同任务需求调整其行为。

实验表明,SELF-RAG(7B和13B参数)在多种任务上显著优于当前最先进的大语言模型和检索增强模型,特别是在提高事实准确性和长文本生成的引用精度方面表现突出。

核心方法

1. 传统RAG与SELF-RAG的对比

  • 传统RAG:无论输入是否需要外部事实支撑,都固定检索一定数量的文档。它不对检索结果的相关性或生成内容的质量进行二次评估。
  • SELF-RAG自适应检索——模型首先判断当前生成步骤是否需要检索。自我批判——对检索到的段落进行相关性评估,并对生成的内容进行事实支持度和整体效用评估。这通过生成“反思令牌”来实现。

2. 反思令牌:自我监督的信号

SELF-RAG 的核心创新是引入了一套特殊的控制令牌,称为反思令牌,它们被添加到模型的词汇表中,用于在生成过程中进行自我评估。主要分为四类:

令牌类型 功能描述 可能取值
Retrieve 判断是否需要检索外部知识 Yes, No
IS_REL 评估检索到的段落是否与问题相关 Relevant, Irrelevant
IS_SUP 评估生成的内容是否被检索到的段落支持 Fully Supported, Partially Supported, No Support/Contradictory
IS_USE 评估生成内容的整体有用性(与问题是否相关、是否信息丰富) 1 (最低) 到 5 (最高)

3. 训练与推理流程

训练阶段分为两步

  1. 训练批判模型:使用GPT-4为大量(指令,输出)对生成反思令牌作为标签,然后以此训练一个较小的批判模型。
  2. 训练生成模型:使用训练好的批判模型,为原始训练数据自动标注反思令牌,从而构建一个包含反思令牌的新训练集。在此基础上,以标准的下一个词预测目标训练最终的大语言模型,使其学会同时生成任务内容和反思令牌。

推理阶段(树状解码)

  1. 对于每个生成片段,模型预测是否需要检索(Retrieve令牌)。
  2. 如果需要,则并行检索多个文档,并为每个文档生成多个候选的后续文本片段。
  3. 模型为每个候选片段生成相应的IS_RELIS_SUPIS_USE反思令牌及其概率。
  4. 通过一个加权评分函数(综合文本生成概率和各类反思令牌的得分)对候选进行排序和选择,实现可控生成。用户可以通过调整不同反思令牌的权重来满足不同需求(例如,更看重事实性还是流畅性)。

主要实验结果

论文在六项任务上进行了全面评估,包括开放域问答、事实核查和长文本生成。

关键结论

  • 全面领先:SELF-RAG-7B/13B在大多数任务上超越了参数规模更大的纯语言模型(如Llama2-13B)以及传统的检索增强模型。
  • 事实性提升:在传记生成任务中,SELF-RAG的FactScore(事实精确度评分)显著高于基线模型。
  • 引用质量高:在需要引用的长格式问答任务中,SELF-RAG在引用精确度上表现出色,甚至超过了检索增强的ChatGPT,这意味着其生成的主张能更好地被引用的证据所支持。
  • 自适应检索有效:通过分析,模型在需要事实支撑时会主动检索,而在创意写作等任务中则减少检索,保持了原始模型的灵活性。

创新点总结

  1. 按需检索:将“是否检索”的决策权交给模型自身,避免了不必要的计算和无关信息的干扰。
  2. 生成式自我批判:模型通过生成反思令牌,实现了对自身输出多维度、细粒度的实时评估,这不同于传统的事后评估或使用独立奖励模型。
  3. 端到端统一训练:单个模型同时掌握了检索决策、内容生成和自我评估三项能力,架构简洁。
  4. 推理阶段高度可控:通过调整反思令牌在解码排序中的权重,无需重新训练即可定制模型行为,例如在“高事实精度”和“高流畅度”之间进行权衡。

总结与思考

SELF-RAG 巧妙地利用“反思令牌”这一设计,为大语言模型注入了一种内省的机制。它不仅仅是一个检索增强工具,更是一个具备自我监控和调整能力的智能生成框架

这项工作为未来大语言模型的发展提供了重要方向:

  • 可信AI:通过自我批判和提供引用,增强了生成内容的可验证性和可信度。
  • 可控生成:提供了一种新的、细粒度的控制生成内容的途径。
  • 效率与效果平衡:自适应检索在提升效果的同时,也考虑了运行效率。

该框架也有其局限,例如训练依赖于GPT-4生成初始反思数据,且推理时的树状搜索会增加一定的计算开销。然而,其核心思想——让模型学会在生成过程中自我反思——无疑具有广泛的启发意义和应用潜力。


参考文献

Asai, A., Wu, Z., Wang, Y., Sil, A., & Hajishirzi, H. (2023). Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection. arXiv preprint arXiv:2310.11511.

(本文是对《SELF-RAG》论文的解读,旨在传播学术思想,更多细节请参阅原文。)

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐