公式 (2) 是对智能体整个生命周期(称为“轨迹” τ\tauτ)发生概率的数学描述。

p(τ)=∏t=0T−1μ(ct∣st,Mt)pLLM(at∣st,ct)I[rt=R(st,at)]⏟重点解释I[Mt+1=Mt∪(st,at,rt)]⏟重点解释P(st+1∣st,at)p(\tau) = \prod_{t=0}^{T-1} \mu(c_t \mid s_t, M_t) p_{\text{LLM}}(a_t \mid s_t, c_t) \underbrace{I[r_t = \mathcal{R}(s_t, a_t)]}_{\text{重点解释}} \underbrace{I[M_{t+1} = M_t \cup (s_t, a_t, r_t)]}_{\text{重点解释}} \mathcal{P}(s_{t+1} \mid s_t, a_t)p(τ)=t=0T1μ(ctst,Mt)pLLM(atst,ct)重点解释 I[rt=R(st,at)]重点解释 I[Mt+1=Mt(st,at,rt)]P(st+1st,at)

这个公式其实是用链式法则把每一步发生的概率乘起来。最让你困惑的指示函数 I[⋅]I[\cdot]I[],其核心作用是描述确定性事件(Deterministic Events)

在概率图模型中,所有的因果关系都必须写成概率形式。如果某件事是必定发生的,我们就用指示函数来表示它的概率为 1。

以下是详细拆解:

1. 指示函数 I[⋅]I[\cdot]I[] 是什么?

在数学和统计学中,指示函数 I[条件]I[\text{条件}]I[条件] 的定义非常简单:

  • 如果条件为真,结果为 1
  • 如果条件为假,结果为 0

通俗理解:你可以把它看作是一个“开关”或者“逻辑校验器”。

  • 在概率公式里,如果出现了 I[y=f(x)]I[y=f(x)]I[y=f(x)],意思就是:yyy 的值必须严格等于 f(x)f(x)f(x)
    • 如果 yyy 真的等于 f(x)f(x)f(x),概率就是 1(100% 发生)。
    • 如果 yyy 不等于 f(x)f(x)f(x),概率就是 0(绝不可能发生)。

[cite_start]这就把一个确定性的计算过程,强行写成了概率分布的形式,以便放入统一的数学框架中 [cite: 202]。


2. 公式中的第一个指示函数:奖励计算

I[rt=R(st,at)]I[r_t = \mathcal{R}(s_t, a_t)]I[rt=R(st,at)]

  • 含义:这表示奖励 rtr_trt确定性地由当前状态 sts_tst 和动作 ata_tat 计算出来的。
  • 为什么要这么写?
    • 在某些复杂的强化学习环境中,奖励是随机的(例如:你投篮动作很标准,但风把球吹偏了,奖励可能是0也可能是1,这是随机的)。
    • [cite_start]但在本文设定的 Deep Research 场景中,作者假设奖励函数 R\mathcal{R}R 是一个固定的规则(Deterministic Reward Function)[cite: 202, 203]。
    • 例子:假设任务是“回答 1+1 等于几”。
      • 状态 sts_tst:“1+1=?”
      • 动作 ata_tat:“2”
      • 奖励函数规则 R\mathcal{R}R:如果答对给 1 分,答错给 0 分。
      • 那么,rtr_trt 必然是 1。此时 I[1=R(… )]=1I[1 = \mathcal{R}(\dots)] = 1I[1=R()]=1。如果你问“rt=0r_t=0rt=0 的概率是多少?”,因为 0≠R(… )0 \neq \mathcal{R}(\dots)0=R(),指示函数为 0,所以概率为 0。

3. 公式中的第二个指示函数:记忆更新 (核心改动)

I[Mt+1=Mt∪(st,at,rt)]I[M_{t+1} = M_t \cup (s_t, a_t, r_t)]I[Mt+1=Mt(st,at,rt)]

  • 含义:这表示记忆库的更新是强制的、确定性的。下一时刻的记忆库 Mt+1M_{t+1}Mt+1 必须等于“旧记忆库 MtM_tMt”加上“刚刚发生的新案例 (st,at,rt)(s_t, a_t, r_t)(st,at,rt)”。
  • 重要性:这是 Memento 算法的核心逻辑——Write 操作
    • 只要智能体经历了一次交互,这段经历 (s,a,r)(s, a, r)(s,a,r)必定会被写入记忆库,没有随机性,也没有遗忘概率。
    • 在数学上,这意味着 Mt+1M_{t+1}Mt+1 完全由 Mt,st,at,rtM_t, s_t, a_t, r_tMt,st,at,rt 决定。
  • [cite_start]对比:如果这是一个模拟人类遗忘的模型,这里可能就不是指示函数,而是一个高斯分布或者其他概率分布(表示有一定几率记错或忘记)。但在 Memento 中,这是计算机存储,所以是确定性的 [cite: 187, 202]。

4. 总结整个公式 (公式 2) 的逻辑流

为了计算一整条轨迹 τ\tauτ 发生的概率,我们需要把每一步的概率乘起来:

  1. μ(ct∣… )\mu(c_t \mid \dots)μ(ct):智能体随机检索到了一个案例(这是概率性的,可能是案例 A,也可能是案例 B)。
  2. pLLM(at∣… )p_{\text{LLM}}(a_t \mid \dots)pLLM(at):LLM 看了案例后,随机生成了一个动作(这是概率性的,LLM 每次输出可能不同)。
  3. I[rt=… ]I[r_t = \dots]I[rt=]:环境根据规则,确定地给出了奖励(没得选,必须按规则给)。
  4. I[Mt+1=… ]I[M_{t+1} = \dots]I[Mt+1=]:系统确定地把这次经历存入硬盘(没得选,必须存)。
  5. P(st+1∣… )\mathcal{P}(s_{t+1} \mid \dots)P(st+1):环境随机跳转到了下一个状态(例如网页加载出了新内容,这是概率性的)。

一句话总结:公式 2 用指示函数强调了在 Memento 框架中,奖励的给予记忆的存储是严格的确定性过程,没有随机噪声,这区别于检索和生成这两个随机过程。

版本 2

简单来说,这是为了把“必然发生的规则”强行写成“概率分布”的形式,以便能够放在一个统一的大乘积公式里进行推导。

以下是详细的拆解:

1. 指示函数 I[⋅]I[\cdot]I[] 是什么?

指示函数(Indicator Function)的定义非常简单:
I[条件]={1,如果条件为真0,如果条件为假 I[\text{条件}] = \begin{cases} 1, & \text{如果条件为真} \\ 0, & \text{如果条件为假} \end{cases} I[条件]={1,0,如果条件为真如果条件为假

放在概率公式里,它代表**“退化的概率分布”(Degenerate Distribution)**。即:这件事发生的概率是 100%(只要符合规则),否则是 0%。

2. 为什么要这样写?有什么意义?

公式 (2) 试图计算整个轨迹 τ\tauτ 发生的联合概率 p(τ)p(\tau)p(τ)。在这个轨迹中,有些环节是随机的(比如 LLM 会生成什么词),有些环节是确定的(比如把刚才发生的事写进日记本)。

原因一:统一概率空间的需要

在概率图模型(如论文中的 Figure 2)中,所有的节点(s,a,r,Ms, a, r, Ms,a,r,M)都被视为随机变量。为了计算联合概率 p(s,a,r,M)p(s, a, r, M)p(s,a,r,M),我们需要根据贝叶斯链式法则将它们乘起来:
p(结果∣原因)p(\text{结果} \mid \text{原因})p(结果原因)

  • 对于随机变量(如 ata_tat:我们用 pLLM(at∣st,ct)p_{\text{LLM}}(a_t \mid s_t, c_t)pLLM(atst,ct),这是一个真正的概率分布(比如有 0.7 的概率生成 “Yes”,0.3 的概率生成 “No”)。
  • 对于确定性变量(如 Mt+1M_{t+1}Mt+1:如果不写成概率形式,公式链条就断了。我们必须问:“在给定当前记忆 MtM_tMt 和新数据 (s,a,r)(s, a, r)(s,a,r) 的情况下,下一刻记忆变成 Mt+1M_{t+1}Mt+1概率是多少?”
    • 答案是:如果 Mt+1M_{t+1}Mt+1 确实等于旧记忆加上新数据,概率就是 1;否则概率就是 0。
    • 数学表达就是:I[Mt+1=Mt∪{(s,a,r)}]I[M_{t+1} = M_t \cup \{(s, a, r)\}]I[Mt+1=Mt{(s,a,r)}]

意义:这允许我们将“逻辑规则”和“随机抽样”无缝地融合在一个公式里进行微积分或梯度推导。

原因二:显式定义“状态转移”

在强化学习中,环境的状态转移通常包含两部分:

  1. 外界环境的变化P(st+1∣st,at)\mathcal{P}(s_{t+1} \mid s_t, a_t)P(st+1st,at)(公式中的第5项)。这是随机的,不可控的。
  2. 智能体内部状态(记忆)的变化Mt+1M_{t+1}Mt+1。这是完全由智能体的程序逻辑决定的。

公式中的这一项:
I[Mt+1=Mt∪{(st,at,rt)}]I[M_{t+1} = M_t \cup \{(s_t, a_t, r_t)\}]I[Mt+1=Mt{(st,at,rt)}]
[cite_start]实际上是在定义 Memento 算法的“记忆更新规则” [cite: 202]。它在数学上声明:Mt+1M_{t+1}Mt+1 必须只能必然是由 MtM_tMt 加上当前经验 (st,at,rt)(s_t, a_t, r_t)(st,at,rt) 构成的。如果不写这一项,数学上就无法约束 Mt+1M_{t+1}Mt+1MtM_tMt 的关系,Mt+1M_{t+1}Mt+1 就变成了一个凭空出现的随机变量。

原因三:为未来的扩展留后路(通用性)

论文中特别提到了一句话:

[cite_start]“Note that the reward function and memory update can also be probabilistic in some specific cases, which we leave as future work.” [cite: 204]

意义

  • 目前,记忆写入是确定的(100% 写入)。
  • 但在未来,也许记忆系统会遗忘,或者写入会有噪声(Probabilistic Memory)。
  • 如果未来要改造成那样,只需要把这个 I[⋅]I[\cdot]I[] 换成一个高斯分布 N(… )\mathcal{N}(\dots)N() 或其他分布即可,整个公式框架不需要推倒重来。现在的 I[⋅]I[\cdot]I[] 只是那种更复杂情况的一个特例。

3. 具体分析公式中的两处指示函数

第一处:I[rt=R(st,at)]I[r_t = \mathcal{R}(s_t, a_t)]I[rt=R(st,at)] (Item 3: Evaluation)
  • 直译:给定状态 sts_tst 和动作 ata_tat,实际观察到的奖励 rtr_trt 等于奖励函数 R(st,at)\mathcal{R}(s_t, a_t)R(st,at) 计算结果的概率是 1。
  • 人话:奖励是确定性的。只要你在这个状态做了这个动作,环境一定会给你这个分数,没有随机波动(比如不会有时候给10分,有时候给5分)。
第二处:I[Mt+1=Mt∪{(st,at,rt)}]I[M_{t+1} = M_t \cup \{(s_t, a_t, r_t)\}]I[Mt+1=Mt{(st,at,rt)}] (Item 4: Retain)
  • 直译:下一时刻的记忆库 Mt+1M_{t+1}Mt+1 等于当前记忆库 MtM_tMt 并在其集合中加入 (st,at,rt)(s_t, a_t, r_t)(st,at,rt) 的概率是 1。
  • 人话:这是强制性的“记日记”规则。这一项确保了在整个数学推导中,记忆库是累积增长的,而不是随机变化的。它在数学上锁死了记忆演变的轨迹。

总结

把“确定的东西”写成指示函数,是为了把“规则(Rule)”包装成“概率(Probability)”

这样做使得公式 (2) 能够成为一个描述整个系统的完备的联合概率分布,涵盖了从“随机的 LLM 思考”到“确定的程序逻辑(写内存)”的所有环节,为后面公式 (3) 能够对这个分布求期望(Eτ∼p\mathbb{E}_{\tau \sim p}Eτp)提供了数学合法性。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐