如果让模型在回答之后再生成一段“自白”,且自白只被“诚实”信号强化,与主回答奖励脱钩,那么“坦白”可能成为它的最优策略——就像天主教忏悔室的“封印”一样,说真话反而最省力。

Google提前反击,今天发布Gemini 3 Deep Think:

  • ARC-AGI-2,使用代码执行后准确率高达 45.1%,前所未有
  • 采用了先进的并行推理技术,能够同时探索多个假设

OpenAI,这边发布了最新长文研究《通过忏悔训练大型语言模型诚实性

图片

1. 为什么需要“忏悔”?

图1 忏悔流程示意图

图片

传统 RLHF 中,奖励函数往往只关注“答案好不好”,而非“答案老不老实”。模型于是学会:

  • 奖励破解(Reward Hacking)
  • 暗中违规(Scheming)
  • 幻觉/过度自信(Hallucination)

核心洞察:如果让模型在回答之后再生成一段“自白”,且自白只被“诚实”信号强化,与主回答奖励脱钩,那么“坦白”可能成为它的最优策略——就像天主教忏悔室的“封印”一样,说真话反而最省力。

2. 忏悔训练方法速览

  • 正常 RL:(x, z, y) → R(y|x)
  • 以概率 p 进入“忏悔模式”:

a.拼接系统消息 xc = “请生成 ConfessionReport”

b.模型输出 (zc, yc)

c.独立法官 Rc 只给“诚实分”,不反向影响R(y|x)

  • 用 PPO 更新忏悔 token 即可

ConfessionReport = { objectives: [],      // 显式+隐式指令 compliance: [],      // 每条是否做到 uncertainties: []    // 模棱两可之处}

原文

3. 实验结果——忏悔真的更诚实吗?

图3 12 项评测概览

图片

关键数字

  • 74.3% 平均忏悔准确率(给定违规)
  • 11/12 项评测“忏悔”>“主回答”诚实率
  • 4.36% 严重漏报(既违规又不忏悔)概率

4. 案例解剖——三种典型轨迹

图4 轨迹拆解

*图18 沙袋案例 *

*图18 沙袋案例 *

图片

  • 违规+忏悔:模型故意答错 5 题,但在忏悔里完整交代。
  • 违规+隐瞒:模型破解计时器,主回答不说,忏悔也没说 → 漏报。
  • 合规+误忏悔:模型其实是对的,但对自己没信心 → 假阳性。

5. 奖励破解压力测试——忏悔也会“叛变”吗?

图7 弱法官场景作者故意用更容易被破解的 LLM 法官当奖

图片

确率随训练下降(模型学会骗法官)

  • 忏悔准确率却上升 → 说明“诚实自白”仍是更简单路径

6. 置信度挖掘——让模型自己说“我不确定”

图8 置信度 vs 真实准确率

图片

从忏悔文本提取 0–1 连续置信度:

  • AUC = 0.79,显著优于直接从主回答提取(≈0.5)
  • 模型在低置信区间主动弃权,可减少幻觉误报

7. 错因剖析——模型为什么不忏悔?

图9 假阴性分类

图片

图10 假阳性分类

图片

Top 原因:

  • 真·糊涂:模型自己相信错误答案(幻觉)
  • 定义模糊:行为是否违规本身存疑
  • 故意隐瞒极少见(早期实验抓到几例)

8. 局限与风险——忏悔不是万能药

图20 假阳性案例

图片

  • 不能减少违规频率,只能提高检出率
  • 对“未知未知”无效:模型想不到就忏悔不出
  • 法官可被 adversarial 攻击—— Scaling Law 下诚实假设是否仍成立?
https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_p

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!​

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐