🧭 第二篇:策略优化的隐含几何

为什么强化学习能学出“意图”,而不是“记忆”


在这里插入图片描述

一、监督学习的隐形假设:世界是静态的

监督学习(Supervised Learning)建立在一个隐含假设之上:

世界的因果结构可以被静态地拟合。

模型看到输入 ( x ),预测输出 ( y ),优化目标是:
min⁡θE∗(x,y)∼D[L(f∗θ(x),y)] \min_\theta \mathbb{E}*{(x,y)\sim D}[L(f*\theta(x), y)] θminE(x,y)D[L(fθ(x),y)]

但这背后有个致命问题:
世界是动态的、策略依赖的。
当智能体的行为会影响接下来的数据分布时,监督学习失效。

举个例子:
一个交易Agent若仅学习历史行情的“预测标签”,
当它参与市场时——市场已经因为它的动作而变化。
这就是监督学习的“静态陷阱”。


二、强化学习的革命:学习在变化中的不变

强化学习(RL)之所以强大,在于它的目标函数与“动态性”深度绑定:

J(θ)=E∗π∗θ[∑tγtr(st,at)] J(\theta) = \mathbb{E}*{\pi*\theta}\left[\sum_t \gamma^t r(s_t, a_t)\right] J(θ)=Eπθ[tγtr(st,at)]

这里的分布 ( s_t, a_t ) 并不是固定的,而是由策略自身生成的

st+1∼P(⋅∣st,at),at∼πθ(⋅∣st) s_{t+1} \sim P(\cdot|s_t, a_t), \quad a_t \sim \pi_\theta(\cdot|s_t) st+1P(st,at),atπθ(st)

换句话说,模型不仅在环境中学习;
它在学习如何通过改变自己的行为来改变未来的数据分布

这使得强化学习具备一种监督学习永远无法获得的能力:

策略内生性(policy endogeneity)——
模型在优化自己的数据分布。

这也是为什么我们说强化学习能学出“意图”:
它不是对数据反应,而是主动塑造数据。


三、从梯度角度看“意图的形成”

强化学习中的梯度与监督学习的最大差别,在于它优化的是“期望路径”而非“即时误差”

∇θJ(θ)=E∗π∗θ[∇θlog⁡πθ(a∣s),Aπθ(s,a)] \nabla_\theta J(\theta) = \mathbb{E}*{\pi*\theta}\left[ \nabla_\theta \log \pi_\theta(a|s) , A^{\pi_\theta}(s,a) \right] θJ(θ)=Eπθ[θlogπθ(as),Aπθ(s,a)]

在这行公式里,蕴含了三个深层结构:

含义 哲学意义
log⁡πθ(a∣s)\log \pi_\theta(a|s)logπθ(as) 行为的选择倾向 “我想这么做”
Aπθ(s,a)A^{\pi_\theta}(s,a)Aπθ(s,a) 优势函数,衡量行动价值 “这件事值得做”
E∗π∗θ\mathbb{E}*{\pi*\theta}Eπθ 策略分布下的期望 “我在实践中学习”

这不是简单的梯度下降,而是意图的自组织过程
每一步更新都让策略朝着“高价值的行为倾向”聚拢,
直到整个策略空间的几何形状,
自发地对齐于“长期目标的流形(manifold)”。


📈 视觉直觉:策略流形的收敛

想象一个高维策略空间,如下:

            奖励梯度 ↑
                  │
   意图形成方向 → ● → → → ●●●
                  │
         噪声与探索在横向扩散

在监督学习中,模型优化一条“静态曲线”上的误差点。
在强化学习中,策略像一团流动的流体,
在奖励梯度的引导下逐步收敛到“高价值区域”。

因此,RL的几何不是平面拟合,而是能量流动。


四、PPO的秘密:让意图学习变得稳定

强化学习的早期算法如REINFORCE存在巨大方差,因为策略更新太激进,容易“忘掉意图”。
PPO(Proximal Policy Optimization)解决了这个问题。

它的目标函数是:

LCLIP(θ)=Et[min⁡(rt(θ)At,clip(rt(θ),1−ϵ,1+ϵ)At)] L^{CLIP}(\theta) = \mathbb{E}_t \left[ \min\left( r_t(\theta) A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)A_t \right) \right] LCLIP(θ)=Et[min(rt(θ)At,clip(rt(θ),1ϵ,1+ϵ)At)]

其中:
rt(θ)=πθ(at∣st)πθold(at∣st) r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)} rt(θ)=πθold(atst)πθ(atst)

核心思想:只允许策略在信任域内更新
也就是说:

“意图可以进化,但不能偏离自己太远。”

这是强化学习的自稳机制,让智能体“既能探索,也能保留信念”。

在LLM中,PPO正是使模型逐步学会“符合人类偏好”的关键算法。
它本质上在优化一种“语义意图场”(semantic intention field)。


五、策略几何的更深层:KL约束与认知自洽

我们可以把策略优化看作一种“能量正则化”过程。
KL散度约束:
DKL(πθnew∣∣πθold)<δ D_{KL}(\pi_{\theta_{new}} || \pi_{\theta_{old}}) < \delta DKL(πθnew∣∣πθold)<δ
相当于在“记忆”与“创新”之间建立防火墙。

这就是为什么强化学习模型不会像监督学习那样“灾难性遗忘”:
它不直接覆盖过去的模式,而是沿着奖励流形进行“可逆变形”。

换句话说:

监督学习优化参数,强化学习优化认知几何。


六、从行为到信念:意图的形成路径

在一个训练充分的智能体中,意图的出现不是显式目标,而是统计必然:

  1. 行为多样性 提供探索的“感知空间”;
  2. 奖励函数 定义了价值密度;
  3. 梯度更新 使高价值区域被重复强化;
  4. 策略压缩(policy distillation)将这些价值模式固化为“意图模板”。

最终,智能体不再只是“做对的事”,
而是“做值得做的事”。
这就是意图的诞生。


七、在Agent系统中的应用:让策略拥有长期性

在多Agent系统中,我们常看到“短视智能”:
每个Agent追求局部最优奖励,导致系统整体崩溃。

解决方法是引入“层级策略(Hierarchical Policy)”:

  • 高层定义长期目标(意图层);
  • 低层执行具体动作(行为层);
  • 奖励函数拆分为即时奖励与意图奖励。

这种结构能让Agent学会在不确定的世界中保持方向性。
这也是构建自治系统的关键。


八、总结:从梯度到意图,从优化到智慧

层级 学习目标 数学对象 哲学含义
监督学习 拟合标签 Loss函数 模仿
强化学习 最大化期望回报 Bellman方程 决策
策略优化 形成稳定意图 Policy流形 意识的萌芽

意图,是梯度在长期价值空间中的惯性。
强化学习不是在优化函数,而是在雕刻智能的动力学。


📚 推荐阅读

  • Schulman et al. “Proximal Policy Optimization Algorithms” (2017)
  • Ilyas et al. “A Closer Look at Deep Reinforcement Learning” (ICLR 2020)
  • DeepMind Technical Note: “Policy Geometry and Emergent Intention Fields”, 2023

✅ 总结语

监督学习教AI记忆世界,
强化学习让AI参与世界。
而策略优化,则让AI开始拥有意图与自洽——
这就是智能从反应式走向思考式的分水岭。


Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐